博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 中的一些小技巧
阅读量:6496 次
发布时间:2019-06-24

本文共 2892 字,大约阅读时间需要 9 分钟。

这里是本人收集的一些 Python 小技巧,目前主要是一些实用函数,适合有一定基础的童鞋观看(不会专门介绍使用到的标准库函数)。。

一、函数式编程

函数式编程用来处理数据,感觉很方便。(要是再配上管道操作符 | 或者 Java 的那种链式调用,超级爽!可惜 Python 都没有。。需要借助第三方库)

1. 分组/group

数据处理中一个常见的操作,是将列表中的元素,依次每 k 个分作一组。

def group_each(a, size: int):    """        将一个可迭代对象 a 内的元素, 每 size 个分为一组        group_each([1,2,3,4], 2) -> [(1,2), (3,4)]    """    iterators = [iter(a)] * size  # 将新构造的 iterator 复制 size 次(浅复制)    return zip(*iterators)  # 然后 zip

这个函数之前在  中就写过,记得是某次 Google 时在 stackoverflow 上发现的,不过它的最初来源应该是 Python 官方文档的某个角落。

顺便如果某个 size 比较常用(比如 2),还可以用 partial 封装一下

from functools import partial # 每两个分一组group_each_2 = partial(group_each, size=2)  # 等同于 group_each_2 = lambda a: group_each(a, 2)

2. 扁平版本的 map

稍微接触过函数式应该都知道 flat_map,可 Python 标准库却没有提供。下面是我在 stackoverflow 上找到的实现,其实很简单

from itertools import chaindef flat_map(f, items):    return chain.from_iterable(map(f, items))

它和 map 的差别在于是不是扁平(flat) 的(废话。。),举个例子

>>> list(map(list, ['123', '456']))[['1', '2', '3'], ['4', '5', '6']]>>> list(flat_map(list, ['123', '456']))['1', '2', '3', '4', '5', '6']

3. 上述函数的应用举例

在做爬虫工作时,有时会遇到这样的 table 元素:

https://img2.mukewang.com/5b94084200010c5904930208.jpg

对这种 html 元素,我一般会直接把它转换成 list,结果如下:

table = [['label1', 'value1', 'label2', 'value2'],         ['label3', 'value3'],         ['label4', 'value4', 'label5', 'value5'],         ...         ]

为了方便索引,现在我需要把上面的数据转换成下面这个样子的 dict

{    'label1': 'value1',    'label2': 'value2',    'label3': 'value3',    'label4': 'value4',    'label5': 'value5'}

如果是平常,大概需要写循环了。不过如果用刚刚说到的几个函数的话,会变得异常简单

 # 1. 分组groups = flat_map(group_each_2, table)# 1.1 flat_map 返回的是迭代器,list 后内容如下:# [('label1', 'value1'),#  ('label2', 'value2'),#  ('label3', 'value3'),#  ('label4', 'value4'),#  ('label5', 'value5')]# 2. 转换成 dictkey_values = dict(groups)   # 得到的 key_values 与上面需要的 dict 别无二致。

相关模块

  1. 迭代器:

  2. 高级数据结构:

  3. 函数式: 常和  一起用

这几个模块都和可迭代对象(列表、集合等)有关,熟悉了应该可以大大改善 Python 使用姿势。

二、其他

1. 多 dict 的去重

假设我们有一个 dict 的列表,里面可能有内容一模一样的 dict,我们需要对它做去重。

容易想到的方法就是使用 set,可是 set 中的元素必须是 hashable 的,而 dict 是 unhashable 的,因此不能直接放进 set 里。

>>> a = [{'a': 1}, {'a': 1}, {'b': 2}]>>> set(a)Traceback (most recent call last):  File "/usr/local/lib/python3.7/site-packages/IPython/core/interactiveshell.py", line 2961, in run_code    exec(code_obj, self.user_global_ns, self.user_ns)  File "
", line 1, in 
    set(a)TypeError: unhashable type: 'dict'

难道就必须手写递归了么?未必,我在 stackoverflow 看到这样一个小技巧

import jsondef unique_dicts(data_list: list):    """unique a list of dict        dict 是 unhashable 的,不能放入 set 中,所以先转换成 str                unique_dicts([{'a': 1}, {'a': 1}, {'b': 2}])  ->  [{'a': 1}, {'b': 2}]    """    data_json_set = set(json.dumps(item) for item in data_list)    return [json.loads(item) for item in data_json_set]

2. str 的 startswith 和 endswith 两个函数的参数可以是元组

In[7]: a = "bb.gif"In[8]: b = 'a.jpg'In[9]: a.endswith(('.jpg', '.gif'))Out[9]: TrueIn[10]: b.startswith(('bb', 'a'))Out[10]: True

转载于:https://www.cnblogs.com/xyou/p/9617298.html

你可能感兴趣的文章
迭代器和生成器
查看>>
Vue 组件之间传值
查看>>
指向方法之委托(一)
查看>>
2013 Multi-University Training Contest 3 部分解题报告
查看>>
Linux 网桥配置命令:brctl
查看>>
jQuery中异步操作对象Deferred
查看>>
MVC设计模式
查看>>
在团队项目遇到的问题及解决方法。
查看>>
springcloud demo---config-client
查看>>
Django设置联合唯一约束 -- migrate时报错处理
查看>>
Java LeetCode 1.Two Sum
查看>>
前端面试题:css相关面试题
查看>>
shell命令的高级使用之---选择性copy
查看>>
最长回文子序列-----动态规划
查看>>
Vue国际化实现
查看>>
设计模式:单例模式
查看>>
FLASH位宽为8、16、32时,CPU与外设之间地址线的连接方法
查看>>
双网卡一般情况不能有两个网关 (转)
查看>>
xshell 远程连接Linux
查看>>
Linux计划任务及压缩归档(week2_day1)--技术流ken
查看>>