python爬虫之 asyncio异步协程学习

2024-04-25 17:38

本文主要是介绍python爬虫之 asyncio异步协程学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python爬虫之 asyncio异步协程学习

导包

import asyncio
import aiohttp

第一步:创建一个特殊的函数

async def get_request(url):

被 async 修饰的函数就是一个特殊函数,有一下特性:

  1. 该函数被调用,不会立即执行
  2. 函数被调用后返回一个协程对象

第二步:协程对象

调用特殊函数就会返回一个协程对象

c = get_request(url) # 这里变量c 就是一个协程对象

第三步:任务对象(高级的协程对象)
利用协程对象( c ) 固定语句创建

task = asyncio.ensure_future(c) #这里变量task 就是一个任务对象

第四步:事件循环 Event Loop

创建事件循环对象

loop = asyncio.get_event_loop()

用来存放多个任务对象。如果事件循环中存放了多个任务对象,事件循环启动后就可以异步的将每一个任务对象对应的指定操作执行。

第五步:将任务对象注册到事件循环中,并开启

loop.run_until_complete(task) #这里变量task 就是一个任务对象

将多个任务对象注册到事件循环中

loop.run_until_complete(asyncio.wait(tasks)) #asyncio.wait(tasks)表示将任务列表中的任务对象进行挂起# tasks任务列表获取流程
tasks = []
for url in urls:c = get_request(url) #创建协程对象task = asyncio.ensure_futyre(c) #创建任务对象task.add_done_callback(parse) #绑定回调函数tasks.append(task) #把多个任务对象添加到任务列表中

第六步:数据的解析,持久化存储是不可以在特殊函数里面进行的,必须绑定一个回调函数。

基于任务对象(task)的回调函数绑定

task.add_done_callback(parse)  #这里的parse为回调函数的函数名,可以是任意变量名
# 这里parse()函数的参数就是任务对象本身(task),即parse(task) 

parse()函数要获取task对象的返回值,需要调用task对象的result()方法:response= task.resule()

第七步:

async 定义的特殊函数内部不能用同步请求的模块(requests),要用aiohttp异步请求模块。

async def get_request(url):async with aiohttp.ClientSession() as sess:async with await sess.get(url=url, headers=headers) as response: content = await response.text() #text()返回字符串形式数据 read()返回二进制形式数据
# 在所有阻塞操作前面加上await 
#await 可以确保在异步执行操作的过程中阻塞操作的执行完毕
完整代码:
import asyncio
import time
import aiohttp
from lxml import etreeasync def get_request(url):async with aiohttp.ClientSession() as sess:#实例化一个请求对象sessasync with await sess.get(url) as response: #调用get发请求,返回一个响应对象page_text = await response.text() #获取了页面源码数据return page_text
def parse(task):#result():返回的就是特殊函数的返回值page_text = task.result()tree = etree.HTML(page_text) #解析data_text = tree.xpath('//a[@id="feng"]/text()')[0]wirh open ('....', 'w') as fp:   #持久化存储fp.write(data_text)
if __name__ == "__main__":urls = ['http://xxxxxx','http://xxxxxx','http://xxxx']tasks = []for url in urls:#创建三个协程对象c = get_request(url)#创建三个任务对象task = asyncio.ensure_future(c)task.add_done_callback(parse)#绑定回调tasks.append(task)loop = asyncio.get_event_loop()loop.run_until_complete(asyncio.wait(tasks))

这篇关于python爬虫之 asyncio异步协程学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/935357

相关文章

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e