爬虫剑谱第八页(爬取糗图百科图片)

2023-10-22 11:50

本文主要是介绍爬虫剑谱第八页(爬取糗图百科图片),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

效果图:

首先准备第三库:
 

import requests
import re
import os

request:用于请求网页获取数据

re:正则表达式

os:操作文件

创建一个文件夹:

# 创建一个文件夹,用于保存爬取的图片
if not os.path.exists('./糗图百科'):os.mkdir('./糗图百科')

设置url以及和header头

url = "https://www.qiushibaike.com/imgrank/page/%d/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"
}

header头用于伪装爬虫,防止反爬机制检测

遍历每一个网页

for num in range(1, 5):new_url = format(url % num)repons = requests.get(url=new_url, headers=headers).text# text(字符串) json()(对象类型) content(二进制)# 使用聚焦爬虫对页面进行数据解析ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex, repons, re.S)

 获取每一个网页的源码并进行数据解析

通过正则表达式获取到每一页的所有图片链接

对每一页每一张图片进行永久化保存

    for soc in img_src_list:soc = 'https:' + soc# 请求图片的二进制数据img_soc = requests.get(url=soc, headers=headers).content# 生成图片名称img_name = soc.split('/')[-1]# 图片储存的路径imgPath = './糗图百科/' + img_namewith open(imgPath, 'wb') as fp:fp.write(img_soc)print(img_name + "下载成功!")# i += 1

完整代码:

import requests
import re
import osi = 1
# 创建一个文件夹,用于保存爬取的图片
if not os.path.exists('./糗图百科'):os.mkdir('./糗图百科')
url = "https://www.qiushibaike.com/imgrank/page/%d/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"
}for num in range(1, 5):new_url = format(url % num)repons = requests.get(url=new_url, headers=headers).text# text(字符串) json()(对象类型) content(二进制)# 使用聚焦爬虫对页面进行数据解析ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex, repons, re.S)for soc in img_src_list:soc = 'https:' + soc# 请求图片的二进制数据img_soc = requests.get(url=soc, headers=headers).content# 生成图片名称img_name = soc.split('/')[-1]# 图片储存的路径imgPath = './糗图百科/' + img_namewith open(imgPath, 'wb') as fp:fp.write(img_soc)print(img_name + "下载成功!")# i += 1
print("爬取完成")

这篇关于爬虫剑谱第八页(爬取糗图百科图片)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/261260

相关文章

使用Python实现调用API获取图片存储到本地的方法

《使用Python实现调用API获取图片存储到本地的方法》开发一个自动化工具,用于从JSON数据源中提取图像ID,通过调用指定API获取未经压缩的原始图像文件,并确保下载结果与Postman等工具直接... 目录使用python实现调用API获取图片存储到本地1、项目概述2、核心功能3、环境准备4、代码实现

Java实现图片淡入淡出效果

《Java实现图片淡入淡出效果》在现代图形用户界面和游戏开发中,**图片淡入淡出(FadeIn/Out)**是一种常见且实用的视觉过渡效果,它可以用于启动画面、场景切换、轮播图、提示框弹出等场景,通过... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细

Java如何根据文件名前缀自动分组图片文件

《Java如何根据文件名前缀自动分组图片文件》一大堆文件(比如图片)堆在一个目录下,它们的命名规则遵循一定的格式,混在一起很难管理,所以本文小编就和大家介绍一下如何使用Java根据文件名前缀自动分组图... 目录需求背景分析思路实现代码输出结果知识扩展需求一大堆文件(比如图片)堆在一个目录下,它们的命名规

将图片导入Python的turtle库的详细过程

《将图片导入Python的turtle库的详细过程》在Python编程的世界里,turtle库以其简单易用、图形化交互的特点,深受初学者喜爱,随着项目的复杂度增加,仅仅依靠线条和颜色来绘制图形可能已经... 目录开篇引言正文剖析1. 理解基础:Turtle库的工作原理2. 图片格式与支持3. 实现步骤详解第

在React聊天应用中实现图片上传功能

《在React聊天应用中实现图片上传功能》在现代聊天应用中,除了文字和表情,图片分享也是一个重要的功能,本文将详细介绍如何在基于React的聊天应用中实现图片上传和预览功能,感兴趣的小伙伴跟着小编一起... 目录技术栈实现步骤1. 消息组件改造2. 图片预览组件3. 聊天输入组件改造功能特点使用说明注意事项

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

《Android使用ImageView.ScaleType实现图片的缩放与裁剪功能》ImageView是最常用的控件之一,它用于展示各种类型的图片,为了能够根据需求调整图片的显示效果,Android提... 目录什么是 ImageView.ScaleType?FIT_XYFIT_STARTFIT_CENTE

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)