Pandas 最简单的方法实现真正的并行

2024-08-24 01:48

本文主要是介绍Pandas 最简单的方法实现真正的并行,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文介绍一种简单的方法实现pandas的并行,从而实现数倍的速度提升,用到以下python库:

  • pandas
  • pandarallel

说明:pandarallel 只能在linux和mac os上使用,win党可以退了...

0. 闲扯

pandas 应该是应该python 中应用最广泛的数据处理库了,但是广为诟病的是速度处理比较慢,无法充分利用计算机的资源。在处理海量的数据或者文本时,我们希望能利用所有的CPU线程来加速。但是Python的多线程和多进程写起来比较麻烦,其中的多线程因为GIL(全局解释锁)的原因还是伪多线程。

在网上查找资料时,也有很多1行代码实现Python并行的文章,但是试验下来效果都不是很理想,比如在网上流传很广的 Parallelism in One Line,实际上用到 python 中的 map 函数,虽然是实现了多线程,但是每一个线程的利用率都很低,相比单线程基本上没有提升。

本文介绍一种能非常简单实现pandas并行的方法,用到了很小众的库:pandarallel,只需要1行代码就可以实现真正的并行。安装方法:

pip install pandarallel

以下通过一个具体的例子加以说明:求海量数组的平方。

1. 实验:

首先,我们来看pandas常规计算的代码耗时:

import time
import pandas as pddef square(x):return x**2nums_df=pd.DataFrame({"num":range(10000000)}) # 创建dataframe,包含1千万行time_start=time.time()
nums_df["square"]=nums_df["num"].apply(square) # 计算数组所有数的平方
time_end=time.time()print("常规代码耗时 %f s"%(time_end-time_start))  # 常规代码耗时 4.179099 s

这里,常规代码的耗时为 4.17s,首先说明,实验用的 CPU为 i3-9100f,是一个4核4线程的CPU。

然后我们再来看并行的代码耗时:

代码很简单,只要把数组导入到pandas的DataFrame中,然后应用apply即可。

但是这里应用的apply 是多线程版,叫做parallel_apply,在应用之前,需要做一个动作,就是导入pandarallel 并将它初始化。然后就没有然后了,废话不多说,上代码!

import time
import pandas as pd
from pandarallel import pandarallel # 导入pandarallepandarallel.initialize() # 初始化该这个b...并行库def square(x):return x**2nums=list(range(10000000))
nums_df=pd.DataFrame({"num":nums})time_start=time.time()
nums_df["square"]=nums_df["num"].parallel_apply(square) # 计算数组所有数的平方,注意,用的是parallel_apply
time_end=time.time()print("并行代码耗时 %f s"%(time_end-time_start))  # 并行代码耗时 1.465182 s

可以看到,并行代码耗时为1.46 s,通过简单的 parallel_apply,有接近3倍的速度提升。实际上,在线程数越多的CPU中,提升越明显。

2. 注意

虽然在上面的实例中看到,多线程版本的 parallel_apply 可以显著提升速度。但是它并不是在所有场景中都是有效的。

这个方法的本质上是把原来在一个线程上跑的计算,按元素分到多个线程跑,这就涉及到一个问题,分配和结果返回也是要消耗一定的时间的,如果计算本身消耗的时间比较少,那么多线程可能会更加耗时。

我个人将这个方法用在文本分词和预处理(去除停用词和符号等)上,比如 text_df["文本"].apply(jieba.cut_words) 改为 text_df["文本"].parallel_apply(jieba.cut_words)之后可以显著提升速度。但是也在一些场景下碰到速度反而下降的过程中,最明显的涉及到正则匹配的问题,多线程反而不如单线程快,不知道是什么原因,可能是python正则的底层是 C语言写的?

我个人的一个判断是,当某一个处理比较耗时,而且处理的元素可以分批,那么就可以通过这个方法实现显著的加速。举个例子来说:假如有100万的文本去重,我们写一个函数去两两比较文本的相似度,假如相似度大于80%,我们就只保留其中一条。

很显然,这是一个计算量非常大的任务,一种解决方法是通过simhash和数据结构来解决。另外一种简单粗暴的方法是,我们把这100万文本,分成100份,每一份有1万条文本,然后我们分别对1万条文本进行去重,然后去重之后再合并。这里,分别对1万条文本去重的过程,就可以用 text_df["text_batch"].parallel_apply(duplicate),个人实验下来,基本上有几个线程就可以提升几倍的速度。最后,当分批去重到一定程度的时候再合并去重,就可以大大减小计算量。

以上思考供大家参考,也欢迎各位在评论区指教。

这篇关于Pandas 最简单的方法实现真正的并行的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1101105

相关文章

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

Linux云服务器手动配置DNS的方法步骤

《Linux云服务器手动配置DNS的方法步骤》在Linux云服务器上手动配置DNS(域名系统)是确保服务器能够正常解析域名的重要步骤,以下是详细的配置方法,包括系统文件的修改和常见问题的解决方案,需要... 目录1. 为什么需要手动配置 DNS?2. 手动配置 DNS 的方法方法 1:修改 /etc/res

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

Linux挂载linux/Windows共享目录实现方式

《Linux挂载linux/Windows共享目录实现方式》:本文主要介绍Linux挂载linux/Windows共享目录实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录文件共享协议linux环境作为服务端(NFS)在服务器端安装 NFS创建要共享的目录修改 NFS 配

通过React实现页面的无限滚动效果

《通过React实现页面的无限滚动效果》今天我们来聊聊无限滚动这个现代Web开发中不可或缺的技术,无论你是刷微博、逛知乎还是看脚本,无限滚动都已经渗透到我们日常的浏览体验中,那么,如何优雅地实现它呢?... 目录1. 早期的解决方案2. 交叉观察者:IntersectionObserver2.1 Inter

Spring Gateway动态路由实现方案

《SpringGateway动态路由实现方案》本文主要介绍了SpringGateway动态路由实现方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随... 目录前沿何为路由RouteDefinitionRouteLocator工作流程动态路由实现尾巴前沿S