python如何爬取图片到指定文件夹_想要利用Python快速爬取整站图片?速进(附完整代码)...

本文主要是介绍python如何爬取图片到指定文件夹_想要利用Python快速爬取整站图片?速进(附完整代码)...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

uiboxs = response.xpath("//div[@class='uibox']")[1:] # 使用切片操作

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

下图为所获取到的所有结果(通过scrapy shell 解析所得到的结果)

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

至于为什么会用到接片操作,我们可以看下图

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==​由上图我们可以看到爬取图片的时候全景看车这部分是不需要爬取的。由于其不是我们所需要的,那么我们就需要把它排除掉,而排除操作我选择的是切片操作。

切片操作完成后,我们通过循环遍历可以分别得到我们所需要的图片名称及图片链接。

怎样得到的?我们先看下HTML源码结构:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

根据上面两张图片,我们可以分别进行xpath解析。解析式如下:

for uibox in uiboxs:

category = uibox.xpath(".//div[@class = 'uibox-title']/a/text()").get()

print(category)

urls = uibox.xpath(".//ul/li/a/img/@src").getall()

print(urls)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

解析完成后,我们通过输出打印看下效果:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

根据上图我们可以看到图片的网址是不完全的,这时候我们可以通过添加https:使其形式成为url = "https:"+url这种形式。最终可以的到下图的效果:

for url in urls:

url = "https:"+url

print(url)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

上述代码用的是最原始的遍历方法让每一个图片地址输出成我们想要的,那么还有其他方法没有?

答案是肯定! 下面博主给的代码即为优化方法:

优化1:自动拼接成完整的URL

for url in urls:

url = response.urljoin(url)

print(url)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

优化2: 使用map()

在使用map()优化前,我们需要先设定好item.py

class BmwItem(scrapy.Item):

category = scrapy.Field()

urls= scrapy.Field()

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

urls = list(map(lambda url:response.urljoin(url),urls))

item = BmwItem(category = category , urls = urls)

yield item

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

上述两种优化方法得到的结果和第一个是一样的。效果图如下:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

2. 存储的具体实现 (在pipelines中处理)

在使用pipelines的时候,我们需要先从设置里打开选项,把默认的注释去掉

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

去掉注释以后,我们就把图片保存到本地这一想法从理论成为现实:

怎样实现?

在此博主总共分成两步进行实现,首先是先判断是否有目录,如果有的话就直接进行下一步,如果没有的话,则会进行自动创建,源码部分如下:

def __init__(self):

# 获取并创建当前目录,没有自行创建

self.path = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')

if not os.path.exists(self.path):

os.mkdir(self.path)

else:

print('images文件夹存在')

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

文件夹创建完成后,就需要对图片进行保存了。源码如下:

def process_item(self, item, spider):

category = item['category']

urls = item['urls']

category_path = os.path.join(self.path,category)

if not os.path.exists(category_path):

os.mkdir(category_path)

for url in urls:

image_name = url.split('_')[-1]

request.urlretrieve(url,os.path.join(category_path,image_name))

return item

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

对上述源码,博主只对image_name = url.split('_')[-1]这一句做详细解释。至于为什么要这样操作,看下图:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

根据上图,我们不难看出所有图片地址的_之前基本上都是一样的,那么我们就以_为分割线 ,通过切片的方式选取最后一部分当作我们所要保存的图片的名称!

下面查看一下运行的结果:

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

通过图片我们可以看到我们已经成功的把理想编程了现实。

3. 更新完善源码

虽然通过以上的步骤我们已经完成了图片的爬取,但是我们要知道我们用的是不同的循环遍历的方法一张一张的下载。初次之外,上述的方法也没有用到异步下载,效率较为低下。

在这个时候我们就可以使用scrapy框架自带的item pipelines了。

为什么要选择使用scrapy内置的下载文件的方法:

避免重新下载最近已经下载过的数据。

可以方便的指定文件存储的路径。

可以将下载的图片转换成通用的格式。比如png或jpg。

可以方便的生成缩略图。

可以方便的检测图片的宽和高,确保他们满足最小限制。

异步下载,效率非常高

下载文件的Files Pipeline与下载图片的Images Pipeline:

当使用Files Pipeline下载文件的时候,按照以下步骤来完成:

定义好一个Item,然后在这个item中定义两个属性,分别为file_urls以及files = file_urls是用来存储需要下载的文件的url链接,需要给一个列表。

当文件下载完成后,会把文件下载的相关信息存储到item的fileds属性中。比如下载路径、下载的url和文件的校验码等。

在配置文件settings.py中配置FILES_STORE,这个配置是用来设置文件下载下来的路径。

启动pipeline:在ITEM_PIPELINES中设置scrapy.pipelines.files.FilesPipelines:1。

当使用Images Pipeline下载文件的时候,按照以下步骤来完成:

定义好一个Item,然后在这个item中定义两个属性,分别为image_urls以及images = image_urls是用来存储需要下载的图片的url链接,需要给一个列表。

当文件下载完成后,会把文件下载的相关信息存储到item的images属性中。比如下载路径、下载的url和文件的校验码等。

在配置文件settings.py中配置IMAGES_STORE,这个配置是用来设置文件下载下来的路径。

启动pipeline:在ITEM_PIPELINES中设置scrapy.pipelines.images.ImagesPipelines:1。

1. 修改完善items.py

class BmwItem(scrapy.Item):

category = scrapy.Field()

image_urls= scrapy.Field()

images = scrapy.Field()

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

2. 修改主程序

# 修改此部分

item = BmwItem(category = category , image_urls = urls)

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

3. 调用scrapy自带的image Pipelines及images_store

ITEM_PIPELINES = {

# 'bmw1.pipelines.Bmw1Pipeline': 300,

# 系统自带的Pipeline 可以实现异步

'scrapy.pipelines.images.ImagesPipeline': 1

}

# 图片下载的路径,供image pipelines使用

IMAGES_STORE = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

好了,修改完成,下面我们来看下效果

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

我们可以看到现在下载速度很快,只用了两秒就完成了整个宝马五系车型图片的下载,但是这样还是有弊端的,因为这样我们下载所有图片都在一个默认的full文件夹下,而没有任何分类。

65734.htmlwAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

这时候可能会有读者问:这能按分类进行排序么!答案是能的。看博主下面操作:

为了实现上述读者所说的需求,其实很简单,只需要我们再次在pipelines.py中重写一个类即可

4. 重写类

# 重写一个新类,使其能够分类下载

class BMWImagesPipeline(ImagesPipeline):

def get_media_requests(self, item, info):

# 这个方法是在发送下载请求之前调用

# 其实这个方法本身就是去发送下载请求的

request_objs = super(BMWImagesPipeline, self).get_media_requests(item,info)

for request_obj in request_objs:

request_obj.item = item

return request_objs

def file_path(self, request, response=None, info=None):

# 这个方法是在图片将要被存储的时候调用,来获取这个图片存储的路径

path = super(BMWImagesPipeline, self).file_path(reque

这篇关于python如何爬取图片到指定文件夹_想要利用Python快速爬取整站图片?速进(附完整代码)...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/342237

相关文章

Nginx中配置使用非默认80端口进行服务的完整指南

《Nginx中配置使用非默认80端口进行服务的完整指南》在实际生产环境中,我们经常需要将Nginx配置在其他端口上运行,本文将详细介绍如何在Nginx中配置使用非默认端口进行服务,希望对大家有所帮助... 目录一、为什么需要使用非默认端口二、配置Nginx使用非默认端口的基本方法2.1 修改listen指令

Python异步编程之await与asyncio基本用法详解

《Python异步编程之await与asyncio基本用法详解》在Python中,await和asyncio是异步编程的核心工具,用于高效处理I/O密集型任务(如网络请求、文件读写、数据库操作等),接... 目录一、核心概念二、使用场景三、基本用法1. 定义协程2. 运行协程3. 并发执行多个任务四、关键

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录​引言:条件判断为何如此重要一、基础语法:三行代码构建决策系统二、多条件分支:elif的魔法三、

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We

python中的显式声明类型参数使用方式

《python中的显式声明类型参数使用方式》文章探讨了Python3.10+版本中类型注解的使用,指出FastAPI官方示例强调显式声明参数类型,通过|操作符替代Union/Optional,可提升代... 目录背景python函数显式声明的类型汇总基本类型集合类型Optional and Union(py

MySQL的配置文件详解及实例代码

《MySQL的配置文件详解及实例代码》MySQL的配置文件是服务器运行的重要组成部分,用于设置服务器操作的各种参数,下面:本文主要介绍MySQL配置文件的相关资料,文中通过代码介绍的非常详细,需要... 目录前言一、配置文件结构1.[mysqld]2.[client]3.[mysql]4.[mysqldum

使用Python实现无损放大图片功能

《使用Python实现无损放大图片功能》本文介绍了如何使用Python的Pillow库进行无损图片放大,区分了JPEG和PNG格式在放大过程中的特点,并给出了示例代码,JPEG格式可能受压缩影响,需先... 目录一、什么是无损放大?二、实现方法步骤1:读取图片步骤2:无损放大图片步骤3:保存图片三、示php

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

使用Python实现一个简易计算器的新手指南

《使用Python实现一个简易计算器的新手指南》计算器是编程入门的经典项目,它涵盖了变量、输入输出、条件判断等核心编程概念,通过这个小项目,可以快速掌握Python的基础语法,并为后续更复杂的项目打下... 目录准备工作基础概念解析分步实现计算器第一步:获取用户输入第二步:实现基本运算第三步:显示计算结果进

Python多线程实现大文件快速下载的代码实现

《Python多线程实现大文件快速下载的代码实现》在互联网时代,文件下载是日常操作之一,尤其是大文件,然而,网络条件不稳定或带宽有限时,下载速度会变得很慢,本文将介绍如何使用Python实现多线程下载... 目录引言一、多线程下载原理二、python实现多线程下载代码说明:三、实战案例四、注意事项五、总结引