Pandas 最简单的方法实现真正的并行

2024-08-24 01:48

本文主要是介绍Pandas 最简单的方法实现真正的并行,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文介绍一种简单的方法实现pandas的并行,从而实现数倍的速度提升,用到以下python库:

  • pandas
  • pandarallel

说明:pandarallel 只能在linux和mac os上使用,win党可以退了...

0. 闲扯

pandas 应该是应该python 中应用最广泛的数据处理库了,但是广为诟病的是速度处理比较慢,无法充分利用计算机的资源。在处理海量的数据或者文本时,我们希望能利用所有的CPU线程来加速。但是Python的多线程和多进程写起来比较麻烦,其中的多线程因为GIL(全局解释锁)的原因还是伪多线程。

在网上查找资料时,也有很多1行代码实现Python并行的文章,但是试验下来效果都不是很理想,比如在网上流传很广的 Parallelism in One Line,实际上用到 python 中的 map 函数,虽然是实现了多线程,但是每一个线程的利用率都很低,相比单线程基本上没有提升。

本文介绍一种能非常简单实现pandas并行的方法,用到了很小众的库:pandarallel,只需要1行代码就可以实现真正的并行。安装方法:

pip install pandarallel

以下通过一个具体的例子加以说明:求海量数组的平方。

1. 实验:

首先,我们来看pandas常规计算的代码耗时:

import time
import pandas as pddef square(x):return x**2nums_df=pd.DataFrame({"num":range(10000000)}) # 创建dataframe,包含1千万行time_start=time.time()
nums_df["square"]=nums_df["num"].apply(square) # 计算数组所有数的平方
time_end=time.time()print("常规代码耗时 %f s"%(time_end-time_start))  # 常规代码耗时 4.179099 s

这里,常规代码的耗时为 4.17s,首先说明,实验用的 CPU为 i3-9100f,是一个4核4线程的CPU。

然后我们再来看并行的代码耗时:

代码很简单,只要把数组导入到pandas的DataFrame中,然后应用apply即可。

但是这里应用的apply 是多线程版,叫做parallel_apply,在应用之前,需要做一个动作,就是导入pandarallel 并将它初始化。然后就没有然后了,废话不多说,上代码!

import time
import pandas as pd
from pandarallel import pandarallel # 导入pandarallepandarallel.initialize() # 初始化该这个b...并行库def square(x):return x**2nums=list(range(10000000))
nums_df=pd.DataFrame({"num":nums})time_start=time.time()
nums_df["square"]=nums_df["num"].parallel_apply(square) # 计算数组所有数的平方,注意,用的是parallel_apply
time_end=time.time()print("并行代码耗时 %f s"%(time_end-time_start))  # 并行代码耗时 1.465182 s

可以看到,并行代码耗时为1.46 s,通过简单的 parallel_apply,有接近3倍的速度提升。实际上,在线程数越多的CPU中,提升越明显。

2. 注意

虽然在上面的实例中看到,多线程版本的 parallel_apply 可以显著提升速度。但是它并不是在所有场景中都是有效的。

这个方法的本质上是把原来在一个线程上跑的计算,按元素分到多个线程跑,这就涉及到一个问题,分配和结果返回也是要消耗一定的时间的,如果计算本身消耗的时间比较少,那么多线程可能会更加耗时。

我个人将这个方法用在文本分词和预处理(去除停用词和符号等)上,比如 text_df["文本"].apply(jieba.cut_words) 改为 text_df["文本"].parallel_apply(jieba.cut_words)之后可以显著提升速度。但是也在一些场景下碰到速度反而下降的过程中,最明显的涉及到正则匹配的问题,多线程反而不如单线程快,不知道是什么原因,可能是python正则的底层是 C语言写的?

我个人的一个判断是,当某一个处理比较耗时,而且处理的元素可以分批,那么就可以通过这个方法实现显著的加速。举个例子来说:假如有100万的文本去重,我们写一个函数去两两比较文本的相似度,假如相似度大于80%,我们就只保留其中一条。

很显然,这是一个计算量非常大的任务,一种解决方法是通过simhash和数据结构来解决。另外一种简单粗暴的方法是,我们把这100万文本,分成100份,每一份有1万条文本,然后我们分别对1万条文本进行去重,然后去重之后再合并。这里,分别对1万条文本去重的过程,就可以用 text_df["text_batch"].parallel_apply(duplicate),个人实验下来,基本上有几个线程就可以提升几倍的速度。最后,当分批去重到一定程度的时候再合并去重,就可以大大减小计算量。

以上思考供大家参考,也欢迎各位在评论区指教。

这篇关于Pandas 最简单的方法实现真正的并行的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1101105

相关文章

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原