Pandas 最简单的方法实现真正的并行

2024-08-24 01:48

本文主要是介绍Pandas 最简单的方法实现真正的并行,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文介绍一种简单的方法实现pandas的并行,从而实现数倍的速度提升,用到以下python库:

  • pandas
  • pandarallel

说明:pandarallel 只能在linux和mac os上使用,win党可以退了...

0. 闲扯

pandas 应该是应该python 中应用最广泛的数据处理库了,但是广为诟病的是速度处理比较慢,无法充分利用计算机的资源。在处理海量的数据或者文本时,我们希望能利用所有的CPU线程来加速。但是Python的多线程和多进程写起来比较麻烦,其中的多线程因为GIL(全局解释锁)的原因还是伪多线程。

在网上查找资料时,也有很多1行代码实现Python并行的文章,但是试验下来效果都不是很理想,比如在网上流传很广的 Parallelism in One Line,实际上用到 python 中的 map 函数,虽然是实现了多线程,但是每一个线程的利用率都很低,相比单线程基本上没有提升。

本文介绍一种能非常简单实现pandas并行的方法,用到了很小众的库:pandarallel,只需要1行代码就可以实现真正的并行。安装方法:

pip install pandarallel

以下通过一个具体的例子加以说明:求海量数组的平方。

1. 实验:

首先,我们来看pandas常规计算的代码耗时:

import time
import pandas as pddef square(x):return x**2nums_df=pd.DataFrame({"num":range(10000000)}) # 创建dataframe,包含1千万行time_start=time.time()
nums_df["square"]=nums_df["num"].apply(square) # 计算数组所有数的平方
time_end=time.time()print("常规代码耗时 %f s"%(time_end-time_start))  # 常规代码耗时 4.179099 s

这里,常规代码的耗时为 4.17s,首先说明,实验用的 CPU为 i3-9100f,是一个4核4线程的CPU。

然后我们再来看并行的代码耗时:

代码很简单,只要把数组导入到pandas的DataFrame中,然后应用apply即可。

但是这里应用的apply 是多线程版,叫做parallel_apply,在应用之前,需要做一个动作,就是导入pandarallel 并将它初始化。然后就没有然后了,废话不多说,上代码!

import time
import pandas as pd
from pandarallel import pandarallel # 导入pandarallepandarallel.initialize() # 初始化该这个b...并行库def square(x):return x**2nums=list(range(10000000))
nums_df=pd.DataFrame({"num":nums})time_start=time.time()
nums_df["square"]=nums_df["num"].parallel_apply(square) # 计算数组所有数的平方,注意,用的是parallel_apply
time_end=time.time()print("并行代码耗时 %f s"%(time_end-time_start))  # 并行代码耗时 1.465182 s

可以看到,并行代码耗时为1.46 s,通过简单的 parallel_apply,有接近3倍的速度提升。实际上,在线程数越多的CPU中,提升越明显。

2. 注意

虽然在上面的实例中看到,多线程版本的 parallel_apply 可以显著提升速度。但是它并不是在所有场景中都是有效的。

这个方法的本质上是把原来在一个线程上跑的计算,按元素分到多个线程跑,这就涉及到一个问题,分配和结果返回也是要消耗一定的时间的,如果计算本身消耗的时间比较少,那么多线程可能会更加耗时。

我个人将这个方法用在文本分词和预处理(去除停用词和符号等)上,比如 text_df["文本"].apply(jieba.cut_words) 改为 text_df["文本"].parallel_apply(jieba.cut_words)之后可以显著提升速度。但是也在一些场景下碰到速度反而下降的过程中,最明显的涉及到正则匹配的问题,多线程反而不如单线程快,不知道是什么原因,可能是python正则的底层是 C语言写的?

我个人的一个判断是,当某一个处理比较耗时,而且处理的元素可以分批,那么就可以通过这个方法实现显著的加速。举个例子来说:假如有100万的文本去重,我们写一个函数去两两比较文本的相似度,假如相似度大于80%,我们就只保留其中一条。

很显然,这是一个计算量非常大的任务,一种解决方法是通过simhash和数据结构来解决。另外一种简单粗暴的方法是,我们把这100万文本,分成100份,每一份有1万条文本,然后我们分别对1万条文本进行去重,然后去重之后再合并。这里,分别对1万条文本去重的过程,就可以用 text_df["text_batch"].parallel_apply(duplicate),个人实验下来,基本上有几个线程就可以提升几倍的速度。最后,当分批去重到一定程度的时候再合并去重,就可以大大减小计算量。

以上思考供大家参考,也欢迎各位在评论区指教。

这篇关于Pandas 最简单的方法实现真正的并行的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1101105

相关文章

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp

检查 Nginx 是否启动的几种方法

《检查Nginx是否启动的几种方法》本文主要介绍了检查Nginx是否启动的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1. 使用 systemctl 命令(推荐)2. 使用 service 命令3. 检查进程是否存在4

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

Java方法重载与重写之同名方法的双面魔法(最新整理)

《Java方法重载与重写之同名方法的双面魔法(最新整理)》文章介绍了Java中的方法重载Overloading和方法重写Overriding的区别联系,方法重载是指在同一个类中,允许存在多个方法名相同... 目录Java方法重载与重写:同名方法的双面魔法方法重载(Overloading):同门师兄弟的不同绝

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

Python轻松实现Word到Markdown的转换

《Python轻松实现Word到Markdown的转换》在文档管理、内容发布等场景中,将Word转换为Markdown格式是常见需求,本文将介绍如何使用FreeSpire.DocforPython实现... 目录一、工具简介二、核心转换实现1. 基础单文件转换2. 批量转换Word文件三、工具特性分析优点局

Springboot3统一返回类设计全过程(从问题到实现)

《Springboot3统一返回类设计全过程(从问题到实现)》文章介绍了如何在SpringBoot3中设计一个统一返回类,以实现前后端接口返回格式的一致性,该类包含状态码、描述信息、业务数据和时间戳,... 目录Spring Boot 3 统一返回类设计:从问题到实现一、核心需求:统一返回类要解决什么问题?