爬虫工作量由小到大的思维转变---<第二十六章 Scrapy通一通中间件的问题>

本文主要是介绍爬虫工作量由小到大的思维转变---<第二十六章 Scrapy通一通中间件的问题>,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:

准备迈入scrapy-redis或者是scrapyd的领域进行一番吹牛~ 忽然想到,遗漏了中间件这个环节! 讲吧~太广泛了;不讲吧,又觉得有遗漏...所以,本章浅谈中间件;

(有问题,欢迎私信! 我写文告诉你解法)

正文:

当我们谈到 Scrapy 的中间件时,可以将其比作一个特殊的助手,负责在爬虫的不同阶段进行处理和干预。Scrapy 有两种类型的中间件:爬虫中间件和下载中间件。它们可以对请求、响应和爬虫的整个生命周期进行干预,以实现诸如修改请求、处理响应、处理异常等功能。

1. 爬虫中间件(Spider Middleware):


   爬虫中间件负责处理爬虫和 Scrapy 引擎之间的通信。它们可以拦截并处理从引擎到爬虫、从爬虫到引擎进行的请求和响应。爬虫中间件提供了 `process_spider_input()` 和 `process_spider_output()` 方法,允许你处理请求和响应,或修改爬虫的输出结果。
案例:

我们的爬虫需要从一个电影网站上爬取电影的名称和评分。但是,该网站对于非登录用户来说,只显示了电影名称,评分信息需要通过另一个 API 请求获取。为了实现这个功能,我们可以编写一个爬虫中间件,通过拦截爬虫的输出,并发送额外的请求获取电影评分信息,并将其添加到爬虫的输出结果中。

import requests
from scrapy.exceptions import IgnoreRequestclass RatingsMiddleware:def process_spider_output(self, response, result, spider):for item in result:if isinstance(item, dict) and 'movie_name' in item:movie_name = item['movie_name']ratings = self.get_movie_ratings(movie_name)item['ratings'] = ratingsyield itemelse:yield itemdef get_movie_ratings(self, movie_name):# 发送评分请求,获取电影评分信息api_url = f'https://api.example.com/ratings?movie_name={movie_name}'response = requests.get(api_url)if response.status_code == 200:ratings = response.json().get('ratings')return ratingselse:raise IgnoreRequest(f'没抓取到这个电影: {movie_name}')
我们编写了一个自定义的爬虫中间件 RatingsMiddleware。在 process_spider_output() 方法中,我们通过检查爬虫输出的每个项,找到包含电影名称的字典项,并为每部电影发送一个额外的请求来获取评分信息。
在 get_movie_ratings() 方法中,我们使用 requests 发送评分请求,并从返回的响应中提取评分信息。如果请求成功,我们将评分信息添加到爬虫输出的对应电影项中,然后通过 yield 返回结果。如果请求失败,我们使用 raise IgnoreRequest 来忽略该项,并记录失败消息。
通过使用这个中间件,我们可以在爬虫的爬取过程中获取电影评分信息,并将其添加到输出结果中。这样,我们就可以在爬虫完成后拥有完整的电影信息,包括名称和评分。


2. 下载中间件(Downloader Middleware):


   下载中间件在引擎和下载器之间进行干预和处理,管理请求和响应的传递过程。它们可以修改发送给下载器的请求和接收到的响应,还可以在发生异常或其他情况下进行处理。下载中间件提供了 `process_request()` 和 `process_response()` 方法,允许你处理请求和响应,或对其进行修改。

通过编写自定义的中间件,你可以利用这些钩子方法来实现一些自定义的功能,比如请求的动态修改、添加头部信息、处理异常、实现代理、处理重试逻辑等。使用中间件可以将这些功能模块化,提高代码可重用性,简化业务逻辑,以及进行一些全局的请求和响应处理。

Scrapy 提供了一些内置的中间件,如自动处理 Cookies、处理重试逻辑、处理 User-Agent 伪装等。此外,你还可以根据自己的需求编写和配置自定义的中间件,将其添加到 Scrapy 的中间件流程中,以实现更高级和个性化的功能。

案例1(随机请求头中间件):
import random
from scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareclass RandomUserAgentMiddleware(UserAgentMiddleware):def __init__(self, user_agent_list):self.user_agent_list = user_agent_list@classmethoddef from_crawler(cls, crawler):settings = crawler.settingsuser_agent_list = settings.get('USER_AGENT_LIST', [])return cls(user_agent_list)def process_request(self, request, spider):request.headers.setdefault('User-Agent', random.choice(self.user_agent_list))

在这个自定义的中间件 RandomUserAgentMiddleware 中,继承了 Scrapy 的内置 UserAgentMiddleware 类,并重写了 process_request() 方法。在这个方法中,我们使用 random.choice() 函数从给定的 User-Agent 列表中随机选择一个 User-Agent,然后将其设置为请求头的 User-Agent。

要使用这个自定义中间件,需要在 Scrapy 的设置中添加一个名为 USER_AGENT_LIST 的设置项,其中包含了待选择的 User-Agent 列表。在 Scrapy 的设置文件(例如 settings.py)中进行配置:(例如)

USER_AGENT_LIST = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36',# 添加更多的 User-Agent
]DOWNLOADER_MIDDLEWARES = {'your_project_name.RandomUserAgentMiddleware': 400,# 其他下载中间件...
}

案例2:

假设我们的爬虫需要登录到一个受保护的网站,才能获取所需的数据。我们需要模拟登录,并在登录成功后保持会话(使用 Cookie)来进行后续的请求。


为了实现这个功能,我们将结合使用 CookieMiddleware 和 UserAgentMiddleware 来处理请求的 Cookie 和 User-Agent 头部信息。

from scrapy import Request
from scrapy.downloadermiddlewares.cookies import CookiesMiddleware
from scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareclass LoginMiddleware:def __init__(self):self.login_url = 'https://example.com/login'self.username = 'your_username'self.password = 'your_password'self.logged_in = Falsedef process_request(self, request, spider):if not self.logged_in:return self.login(request)return Nonedef login(self, request):# 发送登录请求login_request = Request(url=self.login_url,method='POST',formdata={'username': self.username,'password': self.password})login_request.meta['handle_httpstatus_list'] = [302]  # 处理登录重定向return login_requestclass CustomHeadersMiddleware:def process_request(self, request, spider):# 动态添加自定义请求头信息request.headers['Referer'] = 'https://example.com'return None# 将中间件添加到下载中间件的配置中
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 800,'your_project_name.LoginMiddleware': 750,  # 自定义登录中间件'your_project_name.CustomHeadersMiddleware': 900  # 自定义请求头中间件
}

在上述代码中,我们定义了 LoginMiddleware 作为自定义的登录中间件,它负责在请求中检查是否需要登录并发送登录请求。如果还未登录,则创建一个登录请求,并将其返回给 Scrapy 引擎,从而触发登录过程。
与此同时,我们还有一个自定义的 CustomHeadersMiddleware,用于动态添加自定义的请求头信息。
将这些中间件添加到 Scrapy 的下载中间件配置中(DOWNLOADER_MIDDLEWARES),并按照优先级顺序进行配置。


总结:

浅谈了 Scrapy 的中间件,用几个案例为例进行了讲解。其实,中间件的最大重要,莫过于"自定义"三个字! 你的爬虫花不花哨,全在这里面了! 特别是涉及逆向登录,渗T等,那不是这里能讲的~ 不过对于爬虫开发来说,一般没什么特别的网站需要破,基本用用scrapy自带的组件都能写好!

......没啥了,其实吧~搞爬虫没啥意思.....额!

这篇关于爬虫工作量由小到大的思维转变---<第二十六章 Scrapy通一通中间件的问题>的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/538556

相关文章

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Java死锁问题解决方案及示例详解

《Java死锁问题解决方案及示例详解》死锁是指两个或多个线程因争夺资源而相互等待,导致所有线程都无法继续执行的一种状态,本文给大家详细介绍了Java死锁问题解决方案详解及实践样例,需要的朋友可以参考下... 目录1、简述死锁的四个必要条件:2、死锁示例代码3、如何检测死锁?3.1 使用 jstack3.2

解决JSONField、JsonProperty不生效的问题

《解决JSONField、JsonProperty不生效的问题》:本文主要介绍解决JSONField、JsonProperty不生效的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录jsONField、JsonProperty不生效javascript问题排查总结JSONField

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

springboot加载不到nacos配置中心的配置问题处理

《springboot加载不到nacos配置中心的配置问题处理》:本文主要介绍springboot加载不到nacos配置中心的配置问题处理,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录springboot加载不到nacos配置中心的配置两种可能Spring Boot 版本Nacos

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

《Java中JSON格式反序列化为Map且保证存取顺序一致的问题》:本文主要介绍Java中JSON格式反序列化为Map且保证存取顺序一致的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录背景问题解决方法总结背景做项目涉及两个微服务之间传数据时,需要提供方将Map类型的数据序列化为co

如何解决Druid线程池Cause:java.sql.SQLRecoverableException:IO错误:Socket read timed out的问题

《如何解决Druid线程池Cause:java.sql.SQLRecoverableException:IO错误:Socketreadtimedout的问题》:本文主要介绍解决Druid线程... 目录异常信息触发场景找到版本发布更新的说明从版本更新信息可以看到该默认逻辑已经去除总结异常信息触发场景复