Pyhon爬虫之Ajax的数据爬取

2024-03-31 06:12
文章标签 数据 爬虫 ajax 爬取 pyhon

本文主要是介绍Pyhon爬虫之Ajax的数据爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ajax数据爬取

一、什么是Ajax

Ajax,全称Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页内容的技术

对于传统网页,要更新内容则需要刷新页面,而Ajax可以在页面不被刷新的情况下更新。(这个过程实际是页面在后台与服务器进行了数据交互,获取数据后,再利用JavaScript改变网页。)

1、实例

网页中的“下滑查看更多”的选项等…

2、基本原理

从发送Ajax请求到网页更新的这个过程分3步:发送请求、解析内容、渲染网页

2.1、发送请求

这是JavaScript对Ajax最底层的实现:

var xmlhttp;
if (window.XMLHttpRequest){xmlhttp=new XMLHttpRequest();
} else {//code for IE6,IE5xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function (){if (xmlhttp.readyState == 4 && xmlhttp.status == 200){document.getElementById("myDiv").innerText=xmlhttp.responseText;}
}
xmlhttp.open("POST","/ajax/",true);
xmlhttp.send();
  • 先新建一个XMLHttpRequest对象xmlhttp
  • 调用onreadystatechange属性设置监听
  • 调用open和send方法向某个链接(也就是服务器)发送请求。

2.2、解析内容

服务器返回响应后,onreadystateschange属性对应的方法就被触发了,此时利用xmlhttp的responseText属性便可以得到响应内容。

2.3、渲染网页

JavaScript有改变网页内容的能力,因此解析完响应内容之后,就可以调用JacaScript来基于解析完的内容对网页进行下一步处理了。

二、Ajax分析方法

1、案例分析

Ajax有其特殊的请求类型,叫做xhr。在 加载过程中使用检查工具的页面中,我们可以看到一个以getIndex开头的请求信息,其type就为xhr,意味着这就是一个Ajax请求。

右侧可以观察这个Ajax请求的Repuest Headers、URL和Response Headers等信息。其中Request Header中有一个信息为**X-Requested-With:XMLHttpRequest,**这就标记了此请求时Ajax请求,

点击Preview就能看到响应的内容,这些内容是JSON格式的。JavaScript接收到这些数据后,再执行相应的渲染方法,整个页面就渲染出来了。

所以说,呈现给我们的真实数据并不是最原始的页面返回的,而是执行JavaScript后再次向后台发送Ajax请求,浏览器拿到服务器返回的数据后进一步渲染得到的。

2、过滤数据

利用Chrome开发者工具的筛选功能能够筛选出所有Ajax请求。在请求的上方有一层筛选栏,直接单击XHR,就能显示所有Ajax的请求了。

随便点开其中一个条目,都可以清楚地看到其Request URL,Request Headers,Reponse Headers,Response Body等内容,此时想要模拟Ajax请求的发送和数据的提取就非常容易了。(用程序模拟这些Ajax请求

三、Ajax分析与爬取实战

1、爬取目标

https://spa1.scrape.center/

  • 分析页面数据的加载逻辑
  • 用requests实现Ajax数据的爬取
  • 将每部电影的数据分别保存到数据库

2、初步开始

用最简单的代码实现一下requests获取网站首页源码的过程:

import requestsurl = "https://spa1.scrape.center/"
html = requests.get(url).text
print(html)

3、爬取列表页

观察多个Ajax的参数,总结:limit一直为10,正好对应每页的10条数据;offset在依次变大,页数每加1,offset就加10,因此其代表页面的数据偏移量。

结果就是一些JSON数据,其中有一个results字段,是一个列表,列表中每一个元素都是一个字典,观察字典内容,里面正好可以看到对应电影数据的字段,如name、alias、cover、categories。我们只需要构造出所有页面的Ajax接口,就可以轻松获取内容了:

import logging
import requestslogging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')		# 定义logging的基本配置INDEX_URL = 'https://spa1.scrape.center/api/movie/?limit={limit}&offset={offset}'	# 把limit和offset预留出来变成占位符,可以动态传入参数构造一个完整的URL。# 专门用来处理JSON接口
def scrape_api(url):logging.info('scraping %s...', url)try:response = requests.get(url)	if response.status_code == 200:return response.json()	# 解析响应内容并将其转化成JSON字符串logging.error('get invalid status code %s while scraping %s', response.status_code, url)except requests.RequestException:logging.error('error occurred while scraping %s', url, exc_info=True)LIMIT = 10# 爬取列表页
def scrape_index(page):url = INDEX_URL.format(limit=LIMIT, offset=LIMIT * (page - 1))	# 通过字符串的format方法传入limit和offset的值。return scrape_api(url)

这样就完成了列表页的爬取,每次发送Ajax请求都会得到10部电影的数据信息。

由于这时爬取到的数据已经是JSON类型了,所以无需像之前那样去解析HTML代码来提取数据,爬取到的数据已经是我吗想要的结构化数据。

4、爬取详情页

单击任意一电影,发现URL变成https://spa1.scrape.center/detail/40,页面也成功展示了详情页。

可以在开发者工具发现出现了一个Ajax请求,其URL为https://spa1.scrape.center/api/movie/40,通过Preview也能看到 Ajax请求对应的响应信息。

# 爬取详情页的爬取逻辑
DETAIL_URL = 'https://spa1.scrape.center/api/movie/{id}'def scrape_detail(id):url = DETAIL_URL.format(id=id)return scrape_api(url)# 总的调用方法:
TOTAL_PAGE = 10def main():for page in range(1, TOTAL_PAGE + 1):index_data = scrape_index(page)for item in index_data.get('results'):id = item.get('id')detail_data = scrape_detail(id)logging.info('detail data %s', detail_data)if __name__ == '__main__':main()
  • main()方法首先遍历获取页码,然后把page当做参数传递给scrape_index方法,得到列表页的数据。接着遍历每个列表页的每个结果,获取每部电影的id。之后把id当做参数传递给scrape_detail方法来获取每部电影的详情数据,并将此数据赋值给detail_data,最后输出detail_data即可。

5、保存数据

这篇关于Pyhon爬虫之Ajax的数据爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/863608

相关文章

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热