爬虫 全国建筑市场监管服务平台(四库一平台) 小程序数据抓取

本文主要是介绍爬虫 全国建筑市场监管服务平台(四库一平台) 小程序数据抓取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取:

建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇

建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口篇

新版建筑市场(四库一平台)抓取最新信息(爬虫)

最近发现 建筑市场监监管平台推出了自己的小程序《全国建筑市场监管服务平台》。

    在使用过程中,发现没有前端的辅助验证码,和一些访问的现在,于是就研究如何通过小程序来抓取数据,经过的学习和研究基本完成的数据的采集和抓取,就把整个流程最一点记录,如果需要相关的技术支持和爬虫数据可以联系我。

一、使用爬虫抓包工作抓取小程序访问链接

    我喜欢用Fiddler抓包工具,我这里就不详细说怎么配置和安装,这个网上的教程很多;安装和配置好了,我们访问小程序,在Fiddler上面就看到相关的访问链接:

然后通过分析小程序的接口就两个

https://sky.mohurd.gov.cn/skyapi/api/statis/getExtResult
https://sky.mohurd.gov.cn/skyapi/api/statis/getResult

都是通过改变参数keys的方式来实现相关业务,这里就不多少,通过接口很轻松的分析相关的功能。

二、接口认证token和IP限制

    首先我们打开一个接口的请求头:

GET https://sky.mohurd.gov.cn/skyapi/api/statis/getResult?_t=0.33565467680946304&keys=corp%2Fdata_search%2Fpage&qyTypeCode=&regionNum=&pageNumber=1&pageSize=15&keyWord= HTTP/1.1
Host: sky.mohurd.gov.cn
Connection: keep-alive
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 MicroMessenger/7.0.9.501 NetType/WIFI MiniProgramEnv/Windows WindowsWechat
cityCode: 
content-type: application/json
token: t_b161960b732146379d4b8fc53196c50f
Referer: https://servicewechat.com/wx8f070e7958a940d1/11/page-frame.html
Accept-Encoding: gzip, deflate, br

    虽然小程序接口现在不多但是还是做了一点认证也爬虫现在,首先是token,这里的token比较简单,就可以直接用抓取的作为token。当一定的访问,后端也会封Ip,最开始的是好是几分钟会解封,但是现在不会,使用尽量用IP代理。

三、数据AES加密解密

当我们参看返回的数据的时候数据是这样的:

{"data":"A3ReBKoR6IDZSR4Jdxq72fXPsnWTZMhOr5sXl/lJ8/3GWFmsy2fTHG/0+Uz8fZmopZ0Ru0cskOWNX8hWlUy19scqauL28x3daP9IQn2……",
"message":null,
"status":1}

这里data的数据就是做了加密的,使用我们通过数据解密后的:

[{"data":{"asc":true,"current":1,"limit":15,"offset":0,"offsetCurrent":0,"openSort":true,"optimizeCount":false,"pages":14,
"records":[{"legalMan":"张东","address":"重庆市渝北区龙溪街道金山路18号中渝.都会首站4幢9-10","regionFullname":"重庆市",
"corpName":"重庆惠风机电设备有限公司","id":"001903140034193455","corpCode":"91500112054824582M"}],
"searchCount":true,"size":15,"total":200}}]

    由于涉及到相关的解密key这些我就不在该文章中写了,如果需要可以联系我。

下图就是直接通过java写的解密截图。

这篇关于爬虫 全国建筑市场监管服务平台(四库一平台) 小程序数据抓取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/369835

相关文章

MySQL数据目录迁移的完整过程

《MySQL数据目录迁移的完整过程》文章详细介绍了将MySQL数据目录迁移到新硬盘的整个过程,包括新硬盘挂载、创建新的数据目录、迁移数据(推荐使用两遍rsync方案)、修改MySQL配置文件和重启验证... 目录1,新硬盘挂载(如果有的话)2,创建新的 mysql 数据目录3,迁移 MySQL 数据(推荐两

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p

使用MyBatis TypeHandler实现数据加密与解密的具体方案

《使用MyBatisTypeHandler实现数据加密与解密的具体方案》在我们日常的开发工作中,经常会遇到一些敏感数据需要存储,比如用户的手机号、身份证号、银行卡号等,为了保障数据安全,我们通常会对... 目录1. 核心概念:什么是 TypeHandler?2. 实战场景3. 代码实现步骤步骤 1:定义 E

使用C#导出Excel数据并保存多种格式的完整示例

《使用C#导出Excel数据并保存多种格式的完整示例》在现代企业信息化管理中,Excel已经成为最常用的数据存储和分析工具,从员工信息表、销售数据报表到财务分析表,几乎所有部门都离不开Excel,本文... 目录引言1. 安装 Spire.XLS2. 创建工作簿和填充数据3. 保存为不同格式4. 效果展示5

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务