Pandas 最简单的方法实现真正的并行

2024-08-24 01:48

本文主要是介绍Pandas 最简单的方法实现真正的并行,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文介绍一种简单的方法实现pandas的并行,从而实现数倍的速度提升,用到以下python库:

  • pandas
  • pandarallel

说明:pandarallel 只能在linux和mac os上使用,win党可以退了...

0. 闲扯

pandas 应该是应该python 中应用最广泛的数据处理库了,但是广为诟病的是速度处理比较慢,无法充分利用计算机的资源。在处理海量的数据或者文本时,我们希望能利用所有的CPU线程来加速。但是Python的多线程和多进程写起来比较麻烦,其中的多线程因为GIL(全局解释锁)的原因还是伪多线程。

在网上查找资料时,也有很多1行代码实现Python并行的文章,但是试验下来效果都不是很理想,比如在网上流传很广的 Parallelism in One Line,实际上用到 python 中的 map 函数,虽然是实现了多线程,但是每一个线程的利用率都很低,相比单线程基本上没有提升。

本文介绍一种能非常简单实现pandas并行的方法,用到了很小众的库:pandarallel,只需要1行代码就可以实现真正的并行。安装方法:

pip install pandarallel

以下通过一个具体的例子加以说明:求海量数组的平方。

1. 实验:

首先,我们来看pandas常规计算的代码耗时:

import time
import pandas as pddef square(x):return x**2nums_df=pd.DataFrame({"num":range(10000000)}) # 创建dataframe,包含1千万行time_start=time.time()
nums_df["square"]=nums_df["num"].apply(square) # 计算数组所有数的平方
time_end=time.time()print("常规代码耗时 %f s"%(time_end-time_start))  # 常规代码耗时 4.179099 s

这里,常规代码的耗时为 4.17s,首先说明,实验用的 CPU为 i3-9100f,是一个4核4线程的CPU。

然后我们再来看并行的代码耗时:

代码很简单,只要把数组导入到pandas的DataFrame中,然后应用apply即可。

但是这里应用的apply 是多线程版,叫做parallel_apply,在应用之前,需要做一个动作,就是导入pandarallel 并将它初始化。然后就没有然后了,废话不多说,上代码!

import time
import pandas as pd
from pandarallel import pandarallel # 导入pandarallepandarallel.initialize() # 初始化该这个b...并行库def square(x):return x**2nums=list(range(10000000))
nums_df=pd.DataFrame({"num":nums})time_start=time.time()
nums_df["square"]=nums_df["num"].parallel_apply(square) # 计算数组所有数的平方,注意,用的是parallel_apply
time_end=time.time()print("并行代码耗时 %f s"%(time_end-time_start))  # 并行代码耗时 1.465182 s

可以看到,并行代码耗时为1.46 s,通过简单的 parallel_apply,有接近3倍的速度提升。实际上,在线程数越多的CPU中,提升越明显。

2. 注意

虽然在上面的实例中看到,多线程版本的 parallel_apply 可以显著提升速度。但是它并不是在所有场景中都是有效的。

这个方法的本质上是把原来在一个线程上跑的计算,按元素分到多个线程跑,这就涉及到一个问题,分配和结果返回也是要消耗一定的时间的,如果计算本身消耗的时间比较少,那么多线程可能会更加耗时。

我个人将这个方法用在文本分词和预处理(去除停用词和符号等)上,比如 text_df["文本"].apply(jieba.cut_words) 改为 text_df["文本"].parallel_apply(jieba.cut_words)之后可以显著提升速度。但是也在一些场景下碰到速度反而下降的过程中,最明显的涉及到正则匹配的问题,多线程反而不如单线程快,不知道是什么原因,可能是python正则的底层是 C语言写的?

我个人的一个判断是,当某一个处理比较耗时,而且处理的元素可以分批,那么就可以通过这个方法实现显著的加速。举个例子来说:假如有100万的文本去重,我们写一个函数去两两比较文本的相似度,假如相似度大于80%,我们就只保留其中一条。

很显然,这是一个计算量非常大的任务,一种解决方法是通过simhash和数据结构来解决。另外一种简单粗暴的方法是,我们把这100万文本,分成100份,每一份有1万条文本,然后我们分别对1万条文本进行去重,然后去重之后再合并。这里,分别对1万条文本去重的过程,就可以用 text_df["text_batch"].parallel_apply(duplicate),个人实验下来,基本上有几个线程就可以提升几倍的速度。最后,当分批去重到一定程度的时候再合并去重,就可以大大减小计算量。

以上思考供大家参考,也欢迎各位在评论区指教。

这篇关于Pandas 最简单的方法实现真正的并行的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1101105

相关文章

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.