python使用多线程爬取糗百段子

2024-01-28 13:20

本文主要是介绍python使用多线程爬取糗百段子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本次是对上次的糗百爬虫做的修改,使用多线程
import requests
from lxml import etree
import threading
from queue import Queueclass Qiubai:def __init__(self):self.headers = {"sec - fetch - dest": "empty","sec - fetch - mode": "cors","sec - fetch - site": "cross - site","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"}self.url_list = Queue()  #url队列self.res = Queue()  #响应队列self.str = Queue()  #数据队列def get_url_list(self):'''url队列'''url = "https://www.qiushibaike.com/text/page/{}/"for i in range(13):self.url_list.put(url.format(i))  #循环,创建url队列def get_html(self):'''发送请求'''while True:url = self.url_list.get()  #从队列取出response = requests.get(url, headers=self.headers)  #发送请求self.res.put(response.content.decode())  #放入队列self.url_list.task_done()  #让队列减一def get_html_data(self):'''提取数据'''while True:html_str = self.res.get()  #取出一个响应#提取数据html = etree.HTML(html_str)content_list = html.xpath('//div[@class="content"]')self.str.put(content_list)  #放入队列self.res.task_done()  #res让队列减一def save_data(self):'''保存'''while True:content_list = self.str.get()  # 从队列取出一个with open("糗事百科搞笑段子.text", "a", encoding="utf-8") as f:for i in content_list:i = i.xpath("./span/text()")  # 列表for j in i:a = j.replace("\n", "")  # 去掉\n符号f.write(a)f.write("\n\n\n")self.str.task_done()  # 队列减一def run(self):'''创建线程并开启'''#一个空列表,将所有线程放入里面,然后用for循环startthread_list = []#创建url队列url = threading.Thread(target=self.get_url_list)thread_list.append(url)#发送请求for i in range(20):send = threading.Thread(target=self.get_html)thread_list.append(send)#提取数据for i in range(10):get_data = threading.Thread(target=self.get_html_data)thread_list.append(get_data)#保存数据for i in range(20):save_data = threading.Thread(target=self.save_data)thread_list.append(save_data)#开始线程print("开始")for i in thread_list:i.daemon = True  #子线程设置为守护线程,主线程结束子线程结束i.start()for j in [self.url_list, self.res, self.str]:j.join()  #让主线程等待子线程结束再结束print("结束")if __name__ =="__main__":qiubai = Qiubai()qiubai.run()
结果截图如下

在这里插入图片描述

  • 在创建线程是遇到了一直死循环的BUG
threading.Thread(target=self.get_html)

看了文档才知道我在target等号后面的函数加了括号,其实是不能加的。

这篇关于python使用多线程爬取糗百段子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/653737

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Linux join命令的使用及说明

《Linuxjoin命令的使用及说明》`join`命令用于在Linux中按字段将两个文件进行连接,类似于SQL的JOIN,它需要两个文件按用于匹配的字段排序,并且第一个文件的换行符必须是LF,`jo... 目录一. 基本语法二. 数据准备三. 指定文件的连接key四.-a输出指定文件的所有行五.-o指定输出

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4