python3 爬取斗图啦网站的表情包图片

2023-10-18 17:20

本文主要是介绍python3 爬取斗图啦网站的表情包图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬取斗图啦网的表情包

前一阵子在网易云课堂学习了一些关于爬虫的教程,现在来实践一下,当做练习。本人小白,初学编程,如有错误,望不吝告之,多谢。

本人使用的是python3.6版本,引用里的注释是为了记忆相关爬虫模块的知识,请忽略,
相关代码如下:

from urllib import request
import requests
from bs4 import BeautifulSoup
import os
from urllib.error import URLError
# from urllib.request import ProxyHandler, build_openerheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}def get_imgurl_list(url):req = requests.get(url=url, headers=headers)response = req.textsoup = BeautifulSoup(response, 'lxml')# 找出带有相关class的img标签imgurl_list = soup.find_all('img', attrs={'class':'img-responsive lazy image_dta'})return imgurl_listdef save_imgs(list):for img in list:try:# 获取图片的源地址photo_url = img['data-original']# 给图片命名为 .jpg 或 .giffilename = img['alt'] + photo_url[-4:]# 将图片保存到指定目录path = os.path.join('D:/images', filename)# 开始用request.urlretrieve(photo_url, path)时出现403错误,可能是有反爬虫机制,后改为加上请求头的Requestresp = request.Request(photo_url, headers=headers)data = request.urlopen(resp).read()with open(path, 'wb') as f:f.write(data)except URLError as e:print(e)def main():# 此地址是到‘斗图啦’里的‘最新表情’里得到base_url = 'http://www.doutula.com/photo/list/?page='# 我只爬取了前四页,数字4可以更改for x in range(1, 4):url = base_url + str(x)save_imgs(get_imgurl_list(url))if __name__ == '__main__':main()

如果要爬取大量图片可以改用多线程爬取,相对效率能高一些:

from urllib import request
import requests
from bs4 import BeautifulSoup
import os
# from urllib.request import ProxyHandler, build_opener
from urllib.error import URLError
import threadingBASE_URL = 'http://www.doutula.com/photo/list/?page='
PAGE_URL_LIST = []
FACE_URL_LIST = []for x in range(1, 5):url = BASE_URL + str(x)PAGE_URL_LIST.append(url)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}
gLock = threading.Lock()def get_imgurl_list():while True:gLock.acquire()if len(PAGE_URL_LIST) == 0:gLock.release()breakelse:page_url = PAGE_URL_LIST.pop()gLock.release()req = requests.get(url=page_url, headers=headers)response = req.textsoup = BeautifulSoup(response, 'lxml')# 找出带有相关class的img标签,这里返回数据需要通过迭代或listimgurl_list = soup.find_all('img', attrs={'class':'img-responsive lazy image_dta'})gLock.acquire()for img in imgurl_list:url = img['data-original']FACE_URL_LIST.append(url)gLock.release()def save_imgs():while True:gLock.acquire()if len(FACE_URL_LIST) == 0:gLock.release()continueelse:face_url = FACE_URL_LIST.pop()gLock.release()try:# 这里没有上面代码的命名方法好filename = face_url[-14:]# 将图片保存到指定目录path = os.path.join('D:/images', filename)# 由于斗图啦网有反爬虫,所以需要加上请求头resp = request.Request(face_url, headers=headers)data = request.urlopen(resp).read()with open(path, 'wb') as f:f.write(data)except URLError as e:print(e)def main():# 创建3个线程来获取图片地址for i in range(3):t = threading.Thread(target=get_imgurl_list)t.start()# 创建4个线程来下载图片for i in range(4):t = threading.Thread(target=save_imgs)t.start()if __name__ == '__main__':main()

运行第一个程序后,获得图片 如下, 在使用多线程爬取时,爬取一定图片后,出现了很长的等待时间,我给中断了,可能爬取过快网站采取了相关的反爬虫机制。

继续努力

这篇关于python3 爬取斗图啦网站的表情包图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/234054

相关文章

Java使用Spire.Doc for Java实现Word自动化插入图片

《Java使用Spire.DocforJava实现Word自动化插入图片》在日常工作中,Word文档是不可或缺的工具,而图片作为信息传达的重要载体,其在文档中的插入与布局显得尤为关键,下面我们就来... 目录1. Spire.Doc for Java库介绍与安装2. 使用特定的环绕方式插入图片3. 在指定位

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务

python3中正则表达式处理函数用法总结

《python3中正则表达式处理函数用法总结》Python中的正则表达式是一个强大的文本处理工具,用于匹配、查找、替换等操作,在Python中正则表达式的操作主要通过内置的re模块来实现,这篇文章主要... 目录前言re.match函数re.search方法re.match 与 re.search的区别检索

利用Python将PDF文件转换为PNG图片的代码示例

《利用Python将PDF文件转换为PNG图片的代码示例》在日常工作和开发中,我们经常需要处理各种文档格式,PDF作为一种通用且跨平台的文档格式,被广泛应用于合同、报告、电子书等场景,然而,有时我们需... 目录引言为什么选择 python 进行 PDF 转 PNG?Spire.PDF for Python

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

Android实现图片浏览功能的示例详解(附带源码)

《Android实现图片浏览功能的示例详解(附带源码)》在许多应用中,都需要展示图片并支持用户进行浏览,本文主要为大家介绍了如何通过Android实现图片浏览功能,感兴趣的小伙伴可以跟随小编一起学习一... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

Java实现将HTML文件与字符串转换为图片

《Java实现将HTML文件与字符串转换为图片》在Java开发中,我们经常会遇到将HTML内容转换为图片的需求,本文小编就来和大家详细讲讲如何使用FreeSpire.DocforJava库来实现这一功... 目录前言核心实现:html 转图片完整代码场景 1:转换本地 HTML 文件为图片场景 2:转换 H

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

基于C#实现PDF转图片的详细教程

《基于C#实现PDF转图片的详细教程》在数字化办公场景中,PDF文件的可视化处理需求日益增长,本文将围绕Spire.PDFfor.NET这一工具,详解如何通过C#将PDF转换为JPG、PNG等主流图片... 目录引言一、组件部署二、快速入门:PDF 转图片的核心 C# 代码三、分辨率设置 - 清晰度的决定因

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W