爬虫 - 使用Ajax爬取电影票房数据

2023-11-02 20:50

本文主要是介绍爬虫 - 使用Ajax爬取电影票房数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ajax 是一种使用 JavaScript 发起异步请求的技术,其通过 XML 与服务后台交换数据,并在不加载整个网页的情况下改变其部分内容
因为 Ajax 灵活、易用,且更具维护性能,在许多现代网站开发中都会被使用

这里介绍怎么使用爬虫来爬取 Ajax 传递的数据

分析网页结构

我们准备爬取一个文娱数据统计的网站:http://www.endata.com.cn/
目标网页是数据榜单中的票房数据,基于年度票房的数据统计,如下图是2020年电影票房数据的统计
目标网页
图中红箭头指向的是用于选择年份的下拉列表

使用开发者模式,定位下拉列表,可以查看该标签的相关属性
在这里插入图片描述
再到网页源码文件中查找这个标签的 id
在这里插入图片描述
在这里面我们看到一个调用 Ajax 请求接口的方法,以及其参数内容

这显然是一个封装好的方法,我们可以到外部引入的脚本中去查看这个方法的具体实现
在这里插入图片描述
显然是来自这个 Common.js,我们打开这个文件,在里面进行关键字查找
在这里插入图片描述
如此,我们得到了 Ajax 请求的目标 urlPOST 的表单格式,其传递数据的形式为 Json

分析网页请求

除了分析网页结构,我们还可以通过分析网页请求信息来提取关键信息

使用开发者模式,打开 Network 标签,改变年份,观察每次年份变更后重新载入数据时浏览器发起的请求信息
在这里插入图片描述
显然,最先是加载该年份总的电影票房数据信息,后面是单独加载某个电影的数据

查看第一个请求包的详细内容
在这里插入图片描述
是我们想要的信息

模拟请求

我们前面前面获取到的信息有:

  1. Ajax 请求的 url 为:http://www.endata.com.cn/API/GetData.ashx
  2. 请求方法为 POST,表单内容为 year 和 MethodName
  3. 传递数据的形式为 Json

我们根据这些信息进行模拟请求,测试其是否可成功获取数据
在这里插入图片描述
测试成功,模拟的 POST 请求可以获取 Json 形式的数据返回
在这里插入图片描述
Json 格式化数据中,我们想要获取的信息在 Data 字段中的 Table 字段,以数组的形式存储

构建爬虫

由此,我们编写爬虫代码

# 电影票房import requests
import pandas as pddef get_boxoffices_by_year(url, headers):res_data = []for year in range(2008, 2021):data = {'year': year, 'MethodName': 'BoxOffice_GetYearInfoData'}res = requests.post(url, data=data, headers=headers)res_data += res.json()['Data']['Table']df = pd.DataFrame(res_data)df.to_excel('boxoffices_by_year.xlsx')if __name__ == '__main__':url = 'http://www.endata.com.cn/API/GetData.ashx'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36'}get_boxoffices_by_year(url, headers)

爬取结果:
在这里插入图片描述

追加(2021-01-23)

现在网站对后台返回的数据进行了加密处理,能获取到的都是密文
后台返回数据
前端在处理数据时候也是做了判断,如果不是一个Json字符串,就会调用webInstace.shell()方法进行解密处理
解密处理
解密器
大概猜测他用的是DES加密算法,DES是对称加密算法,加密密钥和解密密钥是同一个,在前端进行解密,要么是后台另外传了密钥过来,要么就是使用了约定的密钥生成方法,这里就不往下探究了(这里应该是对加密算法的js代码使用了混淆,看得头痛)。
既然网站对数据进行了加密,我们直接使用ajax就不能拿到有效的数据了,或许可以等前端渲染之后再拿数据明文,这里也不继续探究了,这篇文章就当看一乐吧。

这篇关于爬虫 - 使用Ajax爬取电影票房数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/333237

相关文章

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

nginx启动命令和默认配置文件的使用

《nginx启动命令和默认配置文件的使用》:本文主要介绍nginx启动命令和默认配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录常见命令nginx.conf配置文件location匹配规则图片服务器总结常见命令# 默认配置文件启动./nginx

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

《在Windows上使用qemu安装ubuntu24.04服务器的详细指南》本文介绍了在Windows上使用QEMU安装Ubuntu24.04的全流程:安装QEMU、准备ISO镜像、创建虚拟磁盘、配置... 目录1. 安装QEMU环境2. 准备Ubuntu 24.04镜像3. 启动QEMU安装Ubuntu4

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

Windows下C++使用SQLitede的操作过程

《Windows下C++使用SQLitede的操作过程》本文介绍了Windows下C++使用SQLite的安装配置、CppSQLite库封装优势、核心功能(如数据库连接、事务管理)、跨平台支持及性能优... 目录Windows下C++使用SQLite1、安装2、代码示例CppSQLite:C++轻松操作SQ

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.