利用WebMagic的Cookie机制进行页面爬取

2023-10-28 05:10

本文主要是介绍利用WebMagic的Cookie机制进行页面爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目前发布的WebMagic的最新版本仍然不支持post请求模拟登陆来抓取页面,但是相信,在后续的版本中,肯定会支持这项功能。那么要抓取登陆后才能看到的页面怎么办?

一、用户自己发送post请求,将获取的cookie设置到Spider中

二、用户使用抓包工具将抓到的cookie设置到Spider中

本文只讨论第二种方式,第一种方式的抓取,博主会在后续的博客中实现


本文抓取慕课网登陆后的个人信息设置页面,此个人信息设置页面要登录成功之后才能访问。


1)登录慕课网时,用浏览器的开发者工具对浏览器进行抓包。

      获取cookie信息如下,将该cookie信息记下


2)分析抓取页面。

我们要抓取的页面如下。注意,这个页面是只有用户成功登录后才能访问的。为简单起见,这个demo只抓取此页面的个性签 名信息,以表示爬虫可以成功对此页面进行抓取。



3)编写PageProcessor

public class MoocProcessor implements PageProcessor {private Site site = new Site().setRetryTimes(3).setSleepTime(100)//添加cookie之前一定要先设置主机地址,否则cookie信息不生效.setDomain("www.imooc.com")//添加抓包获取的cookie信息.addCookie("Hm_lpvt_f0cfcccd7b1393990c78efdeebff3968", "1466776143").addCookie("Hm_lvt_f0cfcccd7b1393990c78efdeebff3968", "1466755724,1466775709").addCookie("PHPSESSID", "c3i1dfva2mu4hc22m3m1pg65k0").addCookie("apsid","ExYjQ0ODhjN2IyNmY3ZTBlNWZhNDJhNTllNmQ1MmMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMTM1MDUzOQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA5OTU0NjIyMjZAcXEuY29tAAAAAAAAAAAAAAAAAAAAAGE2NDI5ZDM5OTgyN2I3MDY1MTNjNGU4ZWY2NWNkNjgxXTptV106bVc%3DND").addCookie("cvde", "576d389dcceca-14").addCookie("imooc_isnew", "1").addCookie("imooc_isnew_ct", "1466755723").addCookie("imooc_uuid", "49b7a51b-8451-4fb3-bcc8-9c27409519bf").addCookie("last_login_username", "此处为用户名").addCookie("loginstate", "1")//添加请求头,有些网站会根据请求头判断该请求是由浏览器发起还是由爬虫发起的.addHeader("User-Agent","ozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.516.400 QQBrowser/9.4.8188.400").addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8").addHeader("Accept-Encoding", "gzip, deflate, sdch").addHeader("Accept-Language", "zh-CN,zh;q=0.8").addHeader("Connection", "keep-alive").addHeader("Referer", "http://www.imooc.com/");@Overridepublic void process(Page page) {page.putField("aboutme", page.getHtml().xpath("//textarea[@id='aboutme']/text()").toString());}@Overridepublic Site getSite() {return site;}}

4)编写测试用例

public class Test {public static void main(String[] args) {Spider.create(new MoocProcessor())// 从"http://www.imooc.com/user/setprofile"开始抓.addUrl("http://www.imooc.com/user/setprofile").addPipeline(new ConsolePipeline())// 开启5个线程抓取.thread(1)// 启动爬虫.run();}
}

5)测试结果


6)我们把添加cookie的代码去掉

public class MoocProcessor implements PageProcessor {private Site site = new Site().setRetryTimes(3).setSleepTime(100)//添加cookie之前一定要先设置主机地址,否则cookie信息不生效.setDomain("www.imooc.com")//添加抓包获取的cookie信息
//			.addCookie("Hm_lpvt_f0cfcccd7b1393990c78efdeebff3968", "1466776143")
//			.addCookie("Hm_lvt_f0cfcccd7b1393990c78efdeebff3968", "1466755724,1466775709")
//			.addCookie("PHPSESSID", "c3i1dfva2mu4hc22m3m1pg65k0")
//			.addCookie("apsid",
//					"ExYjQ0ODhjN2IyNmY3ZTBlNWZhNDJhNTllNmQ1MmMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMTM1MDUzOQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA5OTU0NjIyMjZAcXEuY29tAAAAAAAAAAAAAAAAAAAAAGE2NDI5ZDM5OTgyN2I3MDY1MTNjNGU4ZWY2NWNkNjgxXTptV106bVc%3DND")
//			.addCookie("cvde", "576d389dcceca-14").addCookie("imooc_isnew", "1")
//			.addCookie("imooc_isnew_ct", "1466755723").addCookie("imooc_uuid", "49b7a51b-8451-4fb3-bcc8-9c27409519bf")
//			.addCookie("last_login_username", "995462226%40qq.com").addCookie("loginstate", "1")//添加请求头,有些网站会根据请求头判断该请求是由浏览器发起还是由爬虫发起的.addHeader("User-Agent","ozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.516.400 QQBrowser/9.4.8188.400").addHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8").addHeader("Accept-Encoding", "gzip, deflate, sdch").addHeader("Accept-Language", "zh-CN,zh;q=0.8").addHeader("Connection", "keep-alive").addHeader("Referer", "http://www.imooc.com/");@Overridepublic void process(Page page) {page.putField("aboutme", page.getHtml().xpath("//textarea[@id='aboutme']/text()").toString());}@Overridepublic Site getSite() {return site;}}

7)去掉cookie之后的测试结果,抓取到的信息为空



5)和7)证明此网页只有登录后才能访问,需要添加cookie后爬虫才可以对该网页进行爬取


这篇关于利用WebMagic的Cookie机制进行页面爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/290912

相关文章

SpringBoot结合Knife4j进行API分组授权管理配置详解

《SpringBoot结合Knife4j进行API分组授权管理配置详解》在现代的微服务架构中,API文档和授权管理是不可或缺的一部分,本文将介绍如何在SpringBoot应用中集成Knife4j,并进... 目录环境准备配置 Swagger配置 Swagger OpenAPI自定义 Swagger UI 底

C# async await 异步编程实现机制详解

《C#asyncawait异步编程实现机制详解》async/await是C#5.0引入的语法糖,它基于**状态机(StateMachine)**模式实现,将异步方法转换为编译器生成的状态机类,本... 目录一、async/await 异步编程实现机制1.1 核心概念1.2 编译器转换过程1.3 关键组件解析

基于Python Playwright进行前端性能测试的脚本实现

《基于PythonPlaywright进行前端性能测试的脚本实现》在当今Web应用开发中,性能优化是提升用户体验的关键因素之一,本文将介绍如何使用Playwright构建一个自动化性能测试工具,希望... 目录引言工具概述整体架构核心实现解析1. 浏览器初始化2. 性能数据收集3. 资源分析4. 关键性能指

Nginx进行平滑升级的实战指南(不中断服务版本更新)

《Nginx进行平滑升级的实战指南(不中断服务版本更新)》Nginx的平滑升级(也称为热升级)是一种在不停止服务的情况下更新Nginx版本或添加模块的方法,这种升级方式确保了服务的高可用性,避免了因升... 目录一.下载并编译新版Nginx1.下载解压2.编译二.替换可执行文件,并平滑升级1.替换可执行文件

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

Go语言并发之通知退出机制的实现

《Go语言并发之通知退出机制的实现》本文主要介绍了Go语言并发之通知退出机制的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、通知退出机制1.1 进程/main函数退出1.2 通过channel退出1.3 通过cont

Spring Boot 中的默认异常处理机制及执行流程

《SpringBoot中的默认异常处理机制及执行流程》SpringBoot内置BasicErrorController,自动处理异常并生成HTML/JSON响应,支持自定义错误路径、配置及扩展,如... 目录Spring Boot 异常处理机制详解默认错误页面功能自动异常转换机制错误属性配置选项默认错误处理

Java中的xxl-job调度器线程池工作机制

《Java中的xxl-job调度器线程池工作机制》xxl-job通过快慢线程池分离短时与长时任务,动态降级超时任务至慢池,结合异步触发和资源隔离机制,提升高频调度的性能与稳定性,支撑高并发场景下的可靠... 目录⚙️ 一、调度器线程池的核心设计 二、线程池的工作流程 三、线程池配置参数与优化 四、总结:线程