python并发与并行(二) ———— 用线程执行阻塞式IO,但不要用它做并行计算

2024-08-29 05:44

本文主要是介绍python并发与并行(二) ———— 用线程执行阻塞式IO,但不要用它做并行计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python语言的标准实现叫作CPython,它分两步来运行Python程序。首先解析源代码文本,并将其编译成字节码(bytecode)。字节码是一种底层代码,可以把程序表示成8位的指令(从Python 3.6开始,这种底层代码实际上已经变成16位了,所以应该叫作wordcode才对,但基本原理依然相同)。然后,CPython采用基于栈的解释器来运行字节码。这种字节码解释器在执行Python程序的过程中,必须确保相关的状态不受干扰,所以CPython会用一种叫作全局解释器锁(global interpreter lock,GIL)的机制来保证这一点。

GIL实际上就是一种互斥锁(mutual-exclusion lock,mutex),用来防止CPython的状态在抢占式的多线程环境(preemptive multithreading)之中受到干扰,因为在这种环境下,一条线程有可能突然打断另一条线程抢占程序的控制权。如果这种抢占行为来得不是时候,那么解释器的状态(例如为垃圾回收工作而设立的引用计数等)就会遭到破坏。所以,CPython要通过GIL阻止这样的动作,以确保它自身以及它的那些C扩展模块能够正确地执行每一条字节码指令。
但是,GIL会产生一个很不好的影响。在C++与Java这样的语言里面,如果程序之中有多个线程能够分头执行任务,那么就可以把CPU的各个核心充分地利用起来。尽管Python也支持多线程,但这些线程受GIL约束,所以每次或许只能有一条线程向前推进,而无法实现多头并进。所以,想通过多线程做并行计算或是给程序提速的开发者,恐怕要失望了。

我们用一段计算量很大的任务来看一下python在用多线程执行计算密集型任务时的表现。


# 因数分解算法
def factorize(number):for i in range(1,number+1):if number %i==0:yield iimport timenumbers = [2139079, 1214759, 1516637, 1852285]
start = time.time()for number in numbers:list(factorize(number))end = time.time()
delta = end - start
print(f'Took {delta:.3f} seconds')from threading import Threadclass FactorizeThread(Thread):def __init__(self, number):super().__init__()self.number = numberdef run(self):self.factors = list(factorize(self.number))start = time.time()threads = []
for number in numbers:thread = FactorizeThread(number)thread.start()threads.append(thread)# thread.join()方法的作用是等待线程完成。当你启动一个线程后,这个线程会异步执行。如果你希望主线程(通常是执行thread.start()的线程)等待这个新线程完成其任务后再继续执行,你就需要调用thread.join()。
# 如果不调用thread.join(),主线程可能会在其他线程完成之前继续执行,这可能导致一些不可预测的行为或资源访问冲突,特别是当多个线程需要访问共享资源时。通过调用join(),你确保了主线程会等待每个工作线程完成其执行,从而实现线程间的同步。
for thread in threads:thread.join()end = time.time()
delta = end - start
print(f'Took {delta:.3f} seconds')

Output:

Took 0.179 seconds
Took 0.158 seconds

我们看结果,多线程并没有比单线程快很多。

下面我们看个IO密集型的任务。


import select
import socket
import time
from threading import Thread#select.select,这是一个系统调用,用于监视文件描述符集合的变化情况。具体来说,select 函数可以监视三种类型的文件描述符集合:
#可读集合(readfds):等待数据变得可读(例如,网络套接字上有数据可读)的文件描述符集合。
#可写集合(writefds):等待数据变得可写(例如,套接字缓冲区有足够的空间可以发送数据)的文件描述符集合。
#异常集合(exceptfds):等待异常情况(如带外数据到达)的文件描述符集合。
#select.select 函数的最后一个参数是一个超时值,表示 select 函数等待事件发生的最长时间。在这个例子中,超时值被设置为 0.1 秒,这意味着 select 会在 0.1 秒后超时,无论是否有事件发生。
def slow_systemcall():select.select([socket.socket()], [], [], 0.1)start = time.time()for _ in range(5):slow_systemcall()end = time.time()
delta = end - start
print(f'Took {delta:.3f} seconds')start = time.time()threads = []
for _ in range(5):thread = Thread(target=slow_systemcall)thread.start()threads.append(thread)# 用此函数来模拟在执行系统调用时,我们还同时在做其他的事情
def compute_helicopter_location(index):print('Running compute helicopter location ')for i in range(5):compute_helicopter_location(i)for thread in threads:thread.join()end = time.time()
delta = end - start
print(f'Took {delta:.3f} seconds')

Output:

Took 0.517 seconds
Running compute helicopter location 
Running compute helicopter location 
Running compute helicopter location 
Running compute helicopter location 
Running compute helicopter location 
Took 0.108 seconds

与依次执行系统调用的那种写法相比,这种写法的速度几乎能达到原来的5倍。这说明,尽管那5条线程依然受GIL制约,但它们所发起的系统调用是可以各自向前执行的。GIL只不过是让Python内部的代码无法平行推进而已,至于系统调用,则不会受到影响,因为Python线程在即将执行系统调用时,会释放GIL,待完成调用之后,才会重新获取它。

与依次执行系统调用的那种写法相比,这种写法的速度几乎能达到原来的5倍。这说明,尽管那5条线程依然受GIL制约,但它们所发起的系统调用是可以各自向前执行的。GIL只不过是让Python内部的代码无法平行推进而已,至于系统调用,则不会受到影响,因为Python线程在即将执行系统调用时,会释放GIL,待完成调用之后,才会重新获取它。

这篇关于python并发与并行(二) ———— 用线程执行阻塞式IO,但不要用它做并行计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1117004

相关文章

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

JDK21对虚拟线程的几种用法实践指南

《JDK21对虚拟线程的几种用法实践指南》虚拟线程是Java中的一种轻量级线程,由JVM管理,特别适合于I/O密集型任务,:本文主要介绍JDK21对虚拟线程的几种用法,文中通过代码介绍的非常详细,... 目录一、参考官方文档二、什么是虚拟线程三、几种用法1、Thread.ofVirtual().start(

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装