利用WebMagic的Cookie机制进行页面爬取

2023-10-28 05:10

本文主要是介绍利用WebMagic的Cookie机制进行页面爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目前发布的WebMagic的最新版本仍然不支持post请求模拟登陆来抓取页面,但是相信,在后续的版本中,肯定会支持这项功能。那么要抓取登陆后才能看到的页面怎么办?

一、用户自己发送post请求,将获取的cookie设置到Spider中

二、用户使用抓包工具将抓到的cookie设置到Spider中

本文只讨论第二种方式,第一种方式的抓取,博主会在后续的博客中实现


本文抓取慕课网登陆后的个人信息设置页面,此个人信息设置页面要登录成功之后才能访问。


1)登录慕课网时,用浏览器的开发者工具对浏览器进行抓包。

      获取cookie信息如下,将该cookie信息记下


2)分析抓取页面。

我们要抓取的页面如下。注意,这个页面是只有用户成功登录后才能访问的。为简单起见,这个demo只抓取此页面的个性签 名信息,以表示爬虫可以成功对此页面进行抓取。



3)编写PageProcessor

public class MoocProcessor implements PageProcessor {private Site site = new Site().setRetryTimes(3).setSleepTime(100)//添加cookie之前一定要先设置主机地址,否则cookie信息不生效.setDomain("www.imooc.com")//添加抓包获取的cookie信息.addCookie("Hm_lpvt_f0cfcccd7b1393990c78efdeebff3968", "1466776143").addCookie("Hm_lvt_f0cfcccd7b1393990c78efdeebff3968", "1466755724,1466775709").addCookie("PHPSESSID", "c3i1dfva2mu4hc22m3m1pg65k0").addCookie("apsid","ExYjQ0ODhjN2IyNmY3ZTBlNWZhNDJhNTllNmQ1MmMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMTM1MDUzOQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA5OTU0NjIyMjZAcXEuY29tAAAAAAAAAAAAAAAAAAAAAGE2NDI5ZDM5OTgyN2I3MDY1MTNjNGU4ZWY2NWNkNjgxXTptV106bVc%3DND").addCookie("cvde", "576d389dcceca-14").addCookie("imooc_isnew", "1").addCookie("imooc_isnew_ct", "1466755723").addCookie("imooc_uuid", "49b7a51b-8451-4fb3-bcc8-9c27409519bf").addCookie("last_login_username", "此处为用户名").addCookie("loginstate", "1")//添加请求头,有些网站会根据请求头判断该请求是由浏览器发起还是由爬虫发起的.addHeader("User-Agent","ozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.516.400 QQBrowser/9.4.8188.400").addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8").addHeader("Accept-Encoding", "gzip, deflate, sdch").addHeader("Accept-Language", "zh-CN,zh;q=0.8").addHeader("Connection", "keep-alive").addHeader("Referer", "http://www.imooc.com/");@Overridepublic void process(Page page) {page.putField("aboutme", page.getHtml().xpath("//textarea[@id='aboutme']/text()").toString());}@Overridepublic Site getSite() {return site;}}

4)编写测试用例

public class Test {public static void main(String[] args) {Spider.create(new MoocProcessor())// 从"http://www.imooc.com/user/setprofile"开始抓.addUrl("http://www.imooc.com/user/setprofile").addPipeline(new ConsolePipeline())// 开启5个线程抓取.thread(1)// 启动爬虫.run();}
}

5)测试结果


6)我们把添加cookie的代码去掉

public class MoocProcessor implements PageProcessor {private Site site = new Site().setRetryTimes(3).setSleepTime(100)//添加cookie之前一定要先设置主机地址,否则cookie信息不生效.setDomain("www.imooc.com")//添加抓包获取的cookie信息
//			.addCookie("Hm_lpvt_f0cfcccd7b1393990c78efdeebff3968", "1466776143")
//			.addCookie("Hm_lvt_f0cfcccd7b1393990c78efdeebff3968", "1466755724,1466775709")
//			.addCookie("PHPSESSID", "c3i1dfva2mu4hc22m3m1pg65k0")
//			.addCookie("apsid",
//					"ExYjQ0ODhjN2IyNmY3ZTBlNWZhNDJhNTllNmQ1MmMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMTM1MDUzOQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA5OTU0NjIyMjZAcXEuY29tAAAAAAAAAAAAAAAAAAAAAGE2NDI5ZDM5OTgyN2I3MDY1MTNjNGU4ZWY2NWNkNjgxXTptV106bVc%3DND")
//			.addCookie("cvde", "576d389dcceca-14").addCookie("imooc_isnew", "1")
//			.addCookie("imooc_isnew_ct", "1466755723").addCookie("imooc_uuid", "49b7a51b-8451-4fb3-bcc8-9c27409519bf")
//			.addCookie("last_login_username", "995462226%40qq.com").addCookie("loginstate", "1")//添加请求头,有些网站会根据请求头判断该请求是由浏览器发起还是由爬虫发起的.addHeader("User-Agent","ozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.516.400 QQBrowser/9.4.8188.400").addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8").addHeader("Accept-Encoding", "gzip, deflate, sdch").addHeader("Accept-Language", "zh-CN,zh;q=0.8").addHeader("Connection", "keep-alive").addHeader("Referer", "http://www.imooc.com/");@Overridepublic void process(Page page) {page.putField("aboutme", page.getHtml().xpath("//textarea[@id='aboutme']/text()").toString());}@Overridepublic Site getSite() {return site;}}

7)去掉cookie之后的测试结果,抓取到的信息为空



5)和7)证明此网页只有登录后才能访问,需要添加cookie后爬虫才可以对该网页进行爬取


这篇关于利用WebMagic的Cookie机制进行页面爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/290912

相关文章

利用python实现对excel文件进行加密

《利用python实现对excel文件进行加密》由于文件内容的私密性,需要对Excel文件进行加密,保护文件以免给第三方看到,本文将以Python语言为例,和大家讲讲如何对Excel文件进行加密,感兴... 目录前言方法一:使用pywin32库(仅限Windows)方法二:使用msoffcrypto-too

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据(NaN值)是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充?为什么选择均值填充?均值填充的步骤实际代码示例总结在数据分析和处理过程中,缺失数

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

QT进行CSV文件初始化与读写操作

《QT进行CSV文件初始化与读写操作》这篇文章主要为大家详细介绍了在QT环境中如何进行CSV文件的初始化、写入和读取操作,本文为大家整理了相关的操作的多种方法,希望对大家有所帮助... 目录前言一、CSV文件初始化二、CSV写入三、CSV读取四、QT 逐行读取csv文件五、Qt如何将数据保存成CSV文件前言

SpringRetry重试机制之@Retryable注解与重试策略详解

《SpringRetry重试机制之@Retryable注解与重试策略详解》本文将详细介绍SpringRetry的重试机制,特别是@Retryable注解的使用及各种重试策略的配置,帮助开发者构建更加健... 目录引言一、SpringRetry基础知识二、启用SpringRetry三、@Retryable注解

通过Spring层面进行事务回滚的实现

《通过Spring层面进行事务回滚的实现》本文主要介绍了通过Spring层面进行事务回滚的实现,包括声明式事务和编程式事务,具有一定的参考价值,感兴趣的可以了解一下... 目录声明式事务回滚:1. 基础注解配置2. 指定回滚异常类型3. ​不回滚特殊场景编程式事务回滚:1. ​使用 TransactionT

SpringKafka错误处理(重试机制与死信队列)

《SpringKafka错误处理(重试机制与死信队列)》SpringKafka提供了全面的错误处理机制,通过灵活的重试策略和死信队列处理,下面就来介绍一下,具有一定的参考价值,感兴趣的可以了解一下... 目录引言一、Spring Kafka错误处理基础二、配置重试机制三、死信队列实现四、特定异常的处理策略五

Java中使用Hutool进行AES加密解密的方法举例

《Java中使用Hutool进行AES加密解密的方法举例》AES是一种对称加密,所谓对称加密就是加密与解密使用的秘钥是一个,下面:本文主要介绍Java中使用Hutool进行AES加密解密的相关资料... 目录前言一、Hutool简介与引入1.1 Hutool简介1.2 引入Hutool二、AES加密解密基础

SpringSecurity6.0 如何通过JWTtoken进行认证授权

《SpringSecurity6.0如何通过JWTtoken进行认证授权》:本文主要介绍SpringSecurity6.0通过JWTtoken进行认证授权的过程,本文给大家介绍的非常详细,感兴趣... 目录项目依赖认证UserDetailService生成JWT token权限控制小结之前写过一个文章,从S