前嗅教程：采集表格/列表页中的数据（翻页）

2024-06-02 01:38

文章标签 数据教程表格采集列表翻页

本文主要是介绍前嗅教程：采集表格/列表页中的数据（翻页），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

以孔夫子旧书网的最近出版板块为例（http://www.kongfz.com/1004/）为例，采集列表页的所有数据：

第一步：新建任务

①击左上角“加号”新建任务，如图1：

【图1】

②在弹窗里填写采集地址，任务名称如图2：

【图2】

③点击下一步，选择进行数据抽取还是链接抽取，本次采集需要采集当前板块的列表页所有内容，所以只需要在同一个模板中进行翻页链接抽取以及数据抽取即可。此处需要勾选“抽取链接”-“普通翻页”以及“抽取数据”，如图3：

【图3】

第二步：创建/选择表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。此处使用的是的旧书网的表单，如图4

方法一：通过下拉菜单或表单ID选择已有表单

方法二：点击创建表单进入快速建表页面，新建表单

【图4】

方法三：点击“采集配置”-“数据建表”，点击采“采集表单”后面的如图5

【图5】

第三步：配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括标题、作者、价格三个字段，表单如图6

【图6】

第四步：字段取值

取值方法：由于此处活取的是列表页的数据，所以可以应用“识别列表”功能，直接取到列表数据，操作方法如下：

①点击“数据抽取-旧书网”，按住ctrl+鼠标左键点击任意一部分内容，如图7，选中标题

【图7】

②按住Shift+鼠标左键继续点击，直到点击到选中整个第一条数据，如图8

【图8】

③在软件的右下角可以看到“识别列表”按钮，此时点击“识别列表”，如图9，此时列表中的内容都已经选中。

【图9】

③对每个字段进行取值,方法依然是：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

如：price-cover字段

首先在左侧点到price-cover字段上,在浏览器中对该字段进行取值.

<1>按住ctrl+鼠标左键，点击“新书”

<2>按住shift+鼠标左键继续点击，直到选中图10中的全部内容

<3>点击右下角“确认选区”

【图10】

第五步：模板预览

①标右键点击“数据抽取”，然后点击“模板预览”，如图11

【图11】

②预览结果如图12

【图12】

第六步：应用定位过滤，过滤翻页链接

①标点击“链接抽取-普通翻页”，内置浏览器拉到最底端找到翻页，如图13

【图13】

②按住Ctrl+鼠标左键点击第一页，按住shift+鼠标左键，扩大选区，直到选中整行，如图14

【图14】

③点击“确认选区”

④点击“采集预览”查看链接过滤是否完全，此处由于只有一个模板，所以链接和数据在同一个预览框里，直接点击预览的结果如图15

【图15】

⑤点击“链接信息数目”，查看对应的链接，如图16，由于第9页之后直接就是第15页，如果怕中间页数取不到，可以双击第9页试试看

【图16】

第七步：采集预览

双击任意一页链接,点击“旧书网”均可得到对应的列表数据如图17

【图17】

这篇关于前嗅教程：采集表格/列表页中的数据（翻页）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1022684。 23002807@qq.com

相关文章

Linux下利用select实现串口数据读取过程

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码（使用select实现）代码解释总结在 linux 系统里，我们可以借助 select、

阅读更多...

全网最全Tomcat完全卸载重装教程小结

全网最全Tomcat完全卸载重装教程小结

《全网最全Tomcat完全卸载重装教程小结》windows系统卸载Tomcat重新通过ZIP方式安装Tomcat,优点是灵活可控,适合开发者自定义配置,手动配置环境变量后,可通过命令行快速启动和管理... 目录一、完全卸载Tomcat1. 停止Tomcat服务2. 通过控制面板卸载3. 手动删除残留文件4.

阅读更多...

Python 常用数据类型详解之字符串、列表、字典操作方法

Python 常用数据类型详解之字符串、列表、字典操作方法

《Python常用数据类型详解之字符串、列表、字典操作方法》在Python中,字符串、列表和字典是最常用的数据类型,它们在数据处理、程序设计和算法实现中扮演着重要角色,接下来通过本文给大家介绍这三种... 目录一、字符串（String）（一）创建字符串（二）字符串操作1. 字符串连接2. 字符串重复3. 字

阅读更多...

Python的pandas库基础知识超详细教程

Python的pandas库基础知识超详细教程

《Python的pandas库基础知识超详细教程》Pandas是Python数据处理核心库,提供Series和DataFrame结构,支持CSV/Excel/SQL等数据源导入及清洗、合并、统计等功能... 目录一、配置环境二、序列和数据表2.1 初始化2.2 获取数值2.3 获取索引2.4 索引取内容2

阅读更多...

python依赖管理工具UV的安装和使用教程

python依赖管理工具UV的安装和使用教程

《python依赖管理工具UV的安装和使用教程》UV是一个用Rust编写的Python包安装和依赖管理工具,比传统工具（如pip）有着更快、更高效的体验,：本文主要介绍python依赖管理工具UV... 目录前言一、命令安装uv二、手动编译安装2.1在archlinux安装uv的依赖工具2.2从github

阅读更多...

C#使用iText获取PDF的trailer数据的代码示例

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

阅读更多...

Pandas处理缺失数据的方式汇总

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN：缺失的数值数据Panda

阅读更多...

C++中处理文本数据char与string的终极对比指南

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,：本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

阅读更多...

C#实现SHP文件读取与地图显示的完整教程

C#实现SHP文件读取与地图显示的完整教程

《C#实现SHP文件读取与地图显示的完整教程》在地理信息系统(GIS)开发中,SHP文件是一种常见的矢量数据格式,本文将详细介绍如何使用C#读取SHP文件并实现地图显示功能,包括坐标转换、图形渲染、平... 目录概述功能特点核心代码解析1. 文件读取与初始化2. 坐标转换3. 图形绘制4. 地图交互功能缩放

阅读更多...

python库pydantic数据验证和设置管理库的用途

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途：Field数值验证参数总结pydantic 是一个让你能够 confidentl

阅读更多...