Scrapy 结合 senlenium 进行爬虫

2023-11-01 15:59

本文主要是介绍Scrapy 结合 senlenium 进行爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先我们要爬取一家银行数据
发现它的表单使用在这里插入图片描述
而不是一般使用的formdata
这时候我们要注意传过去的数据类型一定要是接送类型的

import requests
from fake_useragent import UserAgent
import jsonheaders = {"User-Agent": UserAgent().random,}
cookies = {"Cookie": "FSSBBIl1UgzbN7N80S=N0Wj0MeCgtf1VKML0c4enCZwAqnGt3Z__zAl.983feP0HDC6LfZXOT8UuBNo94Bz; UM_distinctid=16eedd9aad7427-05dc1c99f7b591-2393f61-1fa400-16eedd9aad82ec; FSSBBIl1UgzbN7N8004S=Zv2vcq030TBJh8G.LktooAVdeBOP16arklQBtLR28K_UlBRhWNXz4oC46Wdfj7Vh; BIGipServerpool_ruishu_gw_8004=35995402.17439.0000; BIGipServerpool_menghu=19218186.20480.0000; BIGipServerpool_lsywly_7004=52653342.23579.0000; BIGipServerpool_gw_8004=18431754.17439.0000; BIGipServerpool_menghu_new_80=!cvODfqURptZHDbnZDfWm7qhBrhR0JVrI7BBFhfflVb4NDP2DuublcyGL1fYn0ruyuPhlOpFi3HJU; BIGipServerpool_mh_8000=!89nLaRuOdkfqIFDZDfWm7qhBrhR0JcmZohVQvXVHxAwZ2yczLZATPofP9n3PS+Ld8+xauOs77ADc; CNZZDATA1258289861=1740492663-1575948154-%7C1576111692; BIGipServerpool_mh_8001=18443550.16671.0000; JSESSIONID=G3b3xby9agMcKKH9kBXahRvX4gCkGDPZlze9m8Clh1nXmX6R8xQQ!-364854237; FSSBBIl1UgzbN7N80T=3tV5g5fy8gPgWgo7KBicSEFTb55gwHNWrl9gvFpATtyRdOQwJsm5sKK40jfVtDRedZPGIc1WwLo3o3gHIbAT8OnufOluPz62A6WiWG0knY4RspEhfaZuAbauG1WZBAGmNV099DzaCtjyrFcF8FCjKYYv0Uo13mWwcQaxfftci0PiGY2MMy7NbV8xPhwuXHaaC.g4vLXBkyyUD.EwQTa8chmSl35W4fk8_G.TUzO4K84kJ2_7ZqdAwqYXAFgS1ZOFgJDjOn8E.Gwq5AOyW.2oTyvfc; FSSBBIl1UgzbN7N8004T=3BEqeMehmX4EFHtCebMzx1TGKH9lzj8dMY7m6mC1CSIILi_2sCh_kvAiluuMk1JWEYpytZwYHBrMoRoQ8PtyeLLDu1dqvQbfXnJbRIkTTDNgHT2JI1KUzh4emjJcTOhnPz17hPxK0n4ps0FeLox45u6dbMbB2kuXDzCpMVRibGMh7Lz_MbG9wSdZVL6ZyR2HGa8drgn4Fej3E2raNVjlywlulOld9Efm.JHHSRwKRgW3504nUwWLcAWgbx_zsrGAk.IsMLJYL0KgfEdjaBU0cMD_OxY6HuBib9LeVJtFmqNgdia"}payloadData = {
"ChannelId": "web",
"ColFlag": "30",
"LoginType": "C",
"OperateMode": "",
"OrderByFlag": "ISSDATE",
"PageNo": "1",
"PrdCode": "",
"PrdName": "",
"Profit": "",
"RiskLevel": "",
"SellObject": "",
"Status": "",
"Term": "",
"Type": "0",
"BankId": "9999",
"MChannelId": "EIBS",
"locale": "zh_CN"
}
# url = 'http://www.jnbank.com.cn:8004/eweb/static/index.html#/app/FProducts'
start_url = "http://www.jnbank.com.cn:8004/eweb/queryFinacialList.do?MmEwMD="
response = requests.post(url=start_url, data=json.dumps(payloadData),headers=headers)# response = requests.Session.post(url=start_url, data=data, cookies=cookies,headers=headers)
print(response)

然后我们用requests测试了一下response返回给我们什么响应
竟然是一个400
我觉得是被反爬机制给发现了 但我还找不到他的js是怎么写的
这时候我选择了使用senlenium
使用senlenium跳过js 对页面进行渲染返回数据
一开始使用谷歌浏览器,发现页面还没等返回json数据就被拦截了
应该是我们使用selenium被反爬机制给监听到了
在这里插入图片描述
这个问题困扰了我几乎一天
然后后来才发现原来换个浏览器就好使了。。。。
火狐返回的数据是这样的 他抓取到了渲染后的网页
在这里插入图片描述
现在我们就需要将scrapy 和selenium结合起来
我们都知道爬虫的原理是这样的
在这里插入图片描述
selenium是一个中间件 我们则需要他在第4步以及第5步给我们返回渲染过的代码 这样我们就可以根据返回回来的静态的html代码来分析数据了
所以我们要在middleware里配置selenium然后通过截取request 来返回response
大概就是这样的原理

这篇关于Scrapy 结合 senlenium 进行爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/324116

相关文章

利用python实现对excel文件进行加密

《利用python实现对excel文件进行加密》由于文件内容的私密性,需要对Excel文件进行加密,保护文件以免给第三方看到,本文将以Python语言为例,和大家讲讲如何对Excel文件进行加密,感兴... 目录前言方法一:使用pywin32库(仅限Windows)方法二:使用msoffcrypto-too

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据(NaN值)是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充?为什么选择均值填充?均值填充的步骤实际代码示例总结在数据分析和处理过程中,缺失数

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

QT进行CSV文件初始化与读写操作

《QT进行CSV文件初始化与读写操作》这篇文章主要为大家详细介绍了在QT环境中如何进行CSV文件的初始化、写入和读取操作,本文为大家整理了相关的操作的多种方法,希望对大家有所帮助... 目录前言一、CSV文件初始化二、CSV写入三、CSV读取四、QT 逐行读取csv文件五、Qt如何将数据保存成CSV文件前言

通过Spring层面进行事务回滚的实现

《通过Spring层面进行事务回滚的实现》本文主要介绍了通过Spring层面进行事务回滚的实现,包括声明式事务和编程式事务,具有一定的参考价值,感兴趣的可以了解一下... 目录声明式事务回滚:1. 基础注解配置2. 指定回滚异常类型3. ​不回滚特殊场景编程式事务回滚:1. ​使用 TransactionT

Java中使用Hutool进行AES加密解密的方法举例

《Java中使用Hutool进行AES加密解密的方法举例》AES是一种对称加密,所谓对称加密就是加密与解密使用的秘钥是一个,下面:本文主要介绍Java中使用Hutool进行AES加密解密的相关资料... 目录前言一、Hutool简介与引入1.1 Hutool简介1.2 引入Hutool二、AES加密解密基础

Spring Boot项目中结合MyBatis实现MySQL的自动主从切换功能

《SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能》:本文主要介绍SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能,本文分步骤给大家介绍的... 目录原理解析1. mysql主从复制(Master-Slave Replication)2. 读写分离3.

SpringSecurity6.0 如何通过JWTtoken进行认证授权

《SpringSecurity6.0如何通过JWTtoken进行认证授权》:本文主要介绍SpringSecurity6.0通过JWTtoken进行认证授权的过程,本文给大家介绍的非常详细,感兴趣... 目录项目依赖认证UserDetailService生成JWT token权限控制小结之前写过一个文章,从S

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.