爬虫 - 使用Ajax爬取电影票房数据

2023-11-02 20:50

本文主要是介绍爬虫 - 使用Ajax爬取电影票房数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ajax 是一种使用 JavaScript 发起异步请求的技术,其通过 XML 与服务后台交换数据,并在不加载整个网页的情况下改变其部分内容
因为 Ajax 灵活、易用,且更具维护性能,在许多现代网站开发中都会被使用

这里介绍怎么使用爬虫来爬取 Ajax 传递的数据

分析网页结构

我们准备爬取一个文娱数据统计的网站:http://www.endata.com.cn/
目标网页是数据榜单中的票房数据,基于年度票房的数据统计,如下图是2020年电影票房数据的统计
目标网页
图中红箭头指向的是用于选择年份的下拉列表

使用开发者模式,定位下拉列表,可以查看该标签的相关属性
在这里插入图片描述
再到网页源码文件中查找这个标签的 id
在这里插入图片描述
在这里面我们看到一个调用 Ajax 请求接口的方法,以及其参数内容

这显然是一个封装好的方法,我们可以到外部引入的脚本中去查看这个方法的具体实现
在这里插入图片描述
显然是来自这个 Common.js,我们打开这个文件,在里面进行关键字查找
在这里插入图片描述
如此,我们得到了 Ajax 请求的目标 urlPOST 的表单格式,其传递数据的形式为 Json

分析网页请求

除了分析网页结构,我们还可以通过分析网页请求信息来提取关键信息

使用开发者模式,打开 Network 标签,改变年份,观察每次年份变更后重新载入数据时浏览器发起的请求信息
在这里插入图片描述
显然,最先是加载该年份总的电影票房数据信息,后面是单独加载某个电影的数据

查看第一个请求包的详细内容
在这里插入图片描述
是我们想要的信息

模拟请求

我们前面前面获取到的信息有:

  1. Ajax 请求的 url 为:http://www.endata.com.cn/API/GetData.ashx
  2. 请求方法为 POST,表单内容为 year 和 MethodName
  3. 传递数据的形式为 Json

我们根据这些信息进行模拟请求,测试其是否可成功获取数据
在这里插入图片描述
测试成功,模拟的 POST 请求可以获取 Json 形式的数据返回
在这里插入图片描述
Json 格式化数据中,我们想要获取的信息在 Data 字段中的 Table 字段,以数组的形式存储

构建爬虫

由此,我们编写爬虫代码

# 电影票房import requests
import pandas as pddef get_boxoffices_by_year(url, headers):res_data = []for year in range(2008, 2021):data = {'year': year, 'MethodName': 'BoxOffice_GetYearInfoData'}res = requests.post(url, data=data, headers=headers)res_data += res.json()['Data']['Table']df = pd.DataFrame(res_data)df.to_excel('boxoffices_by_year.xlsx')if __name__ == '__main__':url = 'http://www.endata.com.cn/API/GetData.ashx'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36'}get_boxoffices_by_year(url, headers)

爬取结果:
在这里插入图片描述

追加(2021-01-23)

现在网站对后台返回的数据进行了加密处理,能获取到的都是密文
后台返回数据
前端在处理数据时候也是做了判断,如果不是一个Json字符串,就会调用webInstace.shell()方法进行解密处理
解密处理
解密器
大概猜测他用的是DES加密算法,DES是对称加密算法,加密密钥和解密密钥是同一个,在前端进行解密,要么是后台另外传了密钥过来,要么就是使用了约定的密钥生成方法,这里就不往下探究了(这里应该是对加密算法的js代码使用了混淆,看得头痛)。
既然网站对数据进行了加密,我们直接使用ajax就不能拿到有效的数据了,或许可以等前端渲染之后再拿数据明文,这里也不继续探究了,这篇文章就当看一乐吧。

这篇关于爬虫 - 使用Ajax爬取电影票房数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/333237

相关文章

Git可视化管理工具(SourceTree)使用操作大全经典

《Git可视化管理工具(SourceTree)使用操作大全经典》本文详细介绍了SourceTree作为Git可视化管理工具的常用操作,包括连接远程仓库、添加SSH密钥、克隆仓库、设置默认项目目录、代码... 目录前言:连接Gitee or github,获取代码:在SourceTree中添加SSH密钥:Cl

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

windows和Linux使用命令行计算文件的MD5值

《windows和Linux使用命令行计算文件的MD5值》在Windows和Linux系统中,您可以使用命令行(终端或命令提示符)来计算文件的MD5值,文章介绍了在Windows和Linux/macO... 目录在Windows上:在linux或MACOS上:总结在Windows上:可以使用certuti

CentOS和Ubuntu系统使用shell脚本创建用户和设置密码

《CentOS和Ubuntu系统使用shell脚本创建用户和设置密码》在Linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设置密码,本文写了一个shell... 在linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设

Python使用Matplotlib绘制3D曲面图详解

《Python使用Matplotlib绘制3D曲面图详解》:本文主要介绍Python使用Matplotlib绘制3D曲面图,在Python中,使用Matplotlib库绘制3D曲面图可以通过mpl... 目录准备工作绘制简单的 3D 曲面图绘制 3D 曲面图添加线框和透明度控制图形视角Matplotlib

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格