爬虫工作量由小到大的思维转变---<第四十八章 Scrapy 的请求和follow问题>

本文主要是介绍爬虫工作量由小到大的思维转变---<第四十八章 Scrapy 的请求和follow问题>,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:

有时,在爬取网页的时候,页面可能只能提取到对应的url,但是具体需要提取的信息需要到下一页(url)里面; 这时候,不要在中间件去requests请求去返回response; 用这个方法....

正文:

在Scrapy框架内,如果你想从一个页面提取URL,然后跳转到这个URL以提取数据,最佳做法是

使用Scrapy的请求和回调系统,而不是通过外部的requests库跳转

使用Scrapy的内建方法不仅能更好地利用Scrapy的异步处理能力,而且还能保持Scrapy中间件和项目设置(如Cookies处理、请求延迟、并发请求等)的一致性。

步骤:

从一级页面跳转到二级页面

假设你在一级页面解析方法中(如:parse方法),提取了一个或多个二级页面的URL。你可以使用response.follow方法生成对二级页面的请求,并指定一个回调方法来处理这些页面的响应。

import scrapyclass MySpider(scrapy.Spider):name = 'my_spider'start_urls = ['http://example.com']  # 一级页面URLdef parse(self, response):# 提取二级页面的URLnext_page_url = response.css('a.next_page::attr(href)').get()  # 假设二级页面URL是这样提取的if next_page_url is not None:# 使用response.follow跳转到二级页面yield response.follow(next_page_url, self.parse_second_page)def parse_second_page(self, response):# 在这里处理二级页面的响应pass

使用Scrapy请求(Request)和回调

如果你需要更多控制(比如添加特定的请求头、Cookies等),也可以直接使用scrapy.Request来创建请求。

yield scrapy.Request(url=next_page_url, callback=self.parse_second_page)

在这段代码中,url参数是你要请求的二级页面的URL,callback参数指定了一个方法(在这个例子中是self.parse_second_page方法),这个方法将会被调用来处理响应。

两者区别和优点:

在Scrapy框架中,response.followscrapy.Request都用于生成对其他页面的请求,但他们在使用上有些微妙的区别与优点。理解这些差异有助于在不同情况下做出更合适的选择。

scrapy.Request

scrapy.Request是Scrapy中生成请求的基本方法。它允许你创建一个请求到指定的URL。scrapy.Request提供了高度的灵活性,允许你指定请求方法(如GET或POST),添加请求头,发送表单数据,设置回调函数处理响应等。

用法示例:
import scrapyclass MySpider(scrapy.Spider):name = 'example_spider'def start_requests(self):urls = ['http://example.com/page1', 'http://example.com/page2']for url in urls:# 指定请求的回调方法为parse方法yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):# 处理响应的逻辑pass

response.follow

response.follow是在Scrapy 1.4.0版本中引入的,相比于scrapy.Request,它提供了一些简化和额外的便利性。主要的便利之处在于不需要完整的URL,response.follow会自动补全相对URL。它也允许直接传递一个选择器或链接提取器(比如response.cssresponse.xpath的结果),而Scrapy会从中提取URL。此外,response.follow继承了当前响应的一些属性,例如编码、cookies等。

用法示例:
class MySpider(scrapy.Spider):name = 'example_spider'start_urls = ['http://example.com']def parse(self, response):# 使用选择器确定下一个URLnext_page = response.css('a::attr(href)').get()if next_page is not None:# 不需要提供完整的URLyield response.follow(next_page, callback=self.parse_other_page)def parse_other_page(self, response):# 处理其他页面的逻辑pass

或者从一组链接中生成多个请求:

for href in response.css('ul.items a::attr(href)'):yield response.follow(href, self.parse_item)

主要区别

  • URL处理scrapy.Request需要完整的URL,而response.follow可以接受相对URL,自动补全为绝对URL。
  • 便利性response.follow允许直接传递选择器或链接提取器的结果,而scrapy.Request则需要先提取URL。
  • 继承属性response.follow继承了当前响应的某些属性,如编码、cookies等,而用scrapy.Request时需要手动指定。

总结

  • 当你有一个完整的URL或需要更多控制请求(比如改变请求方法或添加特定的头部信息)时,使用scrapy.Request
  • 当你要处理相对URL或者希望从当前响应中继承属性时,使用response.follow更方便简洁。

选择使用哪个主要取决于具体场景和对便利性与灵活性的需求。

这篇关于爬虫工作量由小到大的思维转变---<第四十八章 Scrapy 的请求和follow问题>的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/745057

相关文章

Ubuntu上手动安装Go环境并解决“可执行文件格式错误”问题

《Ubuntu上手动安装Go环境并解决“可执行文件格式错误”问题》:本文主要介绍Ubuntu上手动安装Go环境并解决“可执行文件格式错误”问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录一、前言二、系统架构检测三、卸载旧版 Go四、下载并安装正确版本五、配置环境变量六、验证安装七、常见

解决Java异常报错:java.nio.channels.UnresolvedAddressException问题

《解决Java异常报错:java.nio.channels.UnresolvedAddressException问题》:本文主要介绍解决Java异常报错:java.nio.channels.Unr... 目录异常含义可能出现的场景1. 错误的 IP 地址格式2. DNS 解析失败3. 未初始化的地址对象解决

springboot+vue项目怎么解决跨域问题详解

《springboot+vue项目怎么解决跨域问题详解》:本文主要介绍springboot+vue项目怎么解决跨域问题的相关资料,包括前端代理、后端全局配置CORS、注解配置和Nginx反向代理,... 目录1. 前端代理(开发环境推荐)2. 后端全局配置 CORS(生产环境推荐)3. 后端注解配置(按接口

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Idea插件MybatisX失效的问题解决

《Idea插件MybatisX失效的问题解决》:本文主要介绍Idea插件MybatisX失效的问题解决,详细的介绍了4种问题的解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录一、重启idea或者卸载重装MyBATis插件(无需多言)二、检查.XML文件与.Java(该文件后缀Idea可能会隐藏

Nginx 访问 /root/下 403 Forbidden问题解决

《Nginx访问/root/下403Forbidden问题解决》在使用Nginx作为Web服务器时,可能会遇到403Forbidden错误,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录解决 Nginx 访问 /root/test/1.html 403 Forbidden 问题问题复现Ng

Python的pip在命令行无法使用问题的解决方法

《Python的pip在命令行无法使用问题的解决方法》PIP是通用的Python包管理工具,提供了对Python包的查找、下载、安装、卸载、更新等功能,安装诸如Pygame、Pymysql等Pyt... 目录前言一. pip是什么?二. 为什么无法使用?1. 当我们在命令行输入指令并回车时,一般主要是出现以

Nginx部署React项目时重定向循环问题的解决方案

《Nginx部署React项目时重定向循环问题的解决方案》Nginx在处理React项目请求时出现重定向循环,通常是由于`try_files`配置错误或`root`路径配置不当导致的,本文给大家详细介... 目录问题原因1. try_files 配置错误2. root 路径错误解决方法1. 检查 try_f

Python解决雅努斯问题实例方案详解

《Python解决雅努斯问题实例方案详解》:本文主要介绍Python解决雅努斯问题实例方案,雅努斯问题是指AI生成的3D对象在不同视角下出现不一致性的问题,即从不同角度看物体时,物体的形状会出现不... 目录一、雅努斯简介二、雅努斯问题三、示例代码四、解决方案五、完整解决方案一、雅努斯简介雅努斯(Janu

Spring Boot Controller处理HTTP请求体的方法

《SpringBootController处理HTTP请求体的方法》SpringBoot提供了强大的机制来处理不同Content-Type​的HTTP请求体,这主要依赖于HttpMessageCo... 目录一、核心机制:HttpMessageConverter​二、按Content-Type​处理详解1.