【从零开始学爬虫】采集事业单位最新招聘信息

2024-06-02 01:18

本文主要是介绍【从零开始学爬虫】采集事业单位最新招聘信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

l 采集网站

【场景描述】采集上海交通大学最新招聘信息。

【爬虫下载】http://forenose.com/view/forespider/view/download.html

【入口网址】https://postd.sjtu.edu.cn/bshzp/10.htm

图片

【采集内容】

采集该网站上发布的招聘公告信息,采集字段为:招聘标题、发布时间、招聘正文。

图片

l 思路分析

配置思路概览:

图片

 

l 配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

图片

继续勾选列表链接、普通翻页,然后点击完成,创建成功。

图片

 

2. 抽取列表链接

配置列表链接,将所有招聘公告的链接都抽取出来,在此使用定位过滤链接的方法来抽取列表链接。具体操作如下图所示:

①选中模板中的链表链接。

②选中列表链接选区,shift+鼠标单击某个链接,Ctrl、+鼠标单击其他翻页扩大选区,从而选中所有列表链接。

③点击【确认选区】。

④保存配置。

图片

⑤采集预览

点击右上角【采集预览】,看所需要的列表链接是否都抽取出来。

图片

3. 抽取翻页

翻页抽取也是用定位过滤链接的方法,进行抽取。具体如下图所示:

①选中模板中的普通翻页链接抽取。

②选中所有翻页选区,shift+鼠标单击某个翻页,Ctrl+鼠标单击其他翻页扩大选区,从而选中所有翻页。

③确认选区。

④点击【保存】按钮,保存配置。

图片

⑤采集预览

点击右上方【采集预览】,选择普通翻页,查看是否采集到所以翻页,如下图所示即为采集到。

图片

4. 关联模板

检查模板01中的两个链接抽取关联模板是否正确。列表链接应关联模板02,普通翻页应关联模板01,分别如下图所示。

图片

图片

5. 数据抽取

①选中列表链接02,新建一个数据抽取。具体操作如下图所示:

图片

②此时要完成数据建表的工作:选择【数据建表】,点击【采集数据表结构】中的【+】,即可添加数据表,名称可以自定义。

图片

添加字段,各字段属性如下图所示:

图片

③数据表配置完成,选择【数据抽取】右侧数据属性配置,表单选择刚建立的“招聘信息”数据表,则可看到表单中的字段在右侧显示。

图片

④填写示例地址

采集预览,右击任意一条链接,复制该招聘链接。

图片

将该链接填写在模板02的示例地址中,并点击右上角保存按钮。如下图所示:

图片

⑤抽取字段数据

双击内置浏览器空白处,这时内置浏览器显示为刚才示例地址页面,使用定位过滤的方法配置每一个字段。

title字段:选中title字段,shift+点击页面中标题,ctrl+鼠标单击扩大选中区域,选中标题后,点击【确认选区】按钮,点击【保存】按钮。

图片

pubtime字段:操作步骤类似,但是由于选中的为【时间:2021年07月05日】,所以使用数据清洗功能,清洗掉【时间:】,具体设置如下图所示:

图片

content字段:操作步骤类似,具体如下图所示:

图片

⑥以上完成全部字段配置,效果预览如下:

图片

 

6.数据采集

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为zhaopin(注意命名不能用数字和特殊符号),点击【确定】。

图片

创建完成,勾选数据表,点击保存。

图片

②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

图片

③可以在【数据浏览】中,选择数据表查看采集数据。

图片

④导出数据

图片

导出数据表如下图所示:

图片

这篇关于【从零开始学爬虫】采集事业单位最新招聘信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022634

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Java SWT库详解与安装指南(最新推荐)

《JavaSWT库详解与安装指南(最新推荐)》:本文主要介绍JavaSWT库详解与安装指南,在本章中,我们介绍了如何下载、安装SWTJAR包,并详述了在Eclipse以及命令行环境中配置Java... 目录1. Java SWT类库概述2. SWT与AWT和Swing的区别2.1 历史背景与设计理念2.1.

Java日期类详解(最新推荐)

《Java日期类详解(最新推荐)》早期版本主要使用java.util.Date、java.util.Calendar等类,Java8及以后引入了新的日期和时间API(JSR310),包含在ja... 目录旧的日期时间API新的日期时间 API(Java 8+)获取时间戳时间计算与其他日期时间类型的转换Dur

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

MySQL 存储引擎 MyISAM详解(最新推荐)

《MySQL存储引擎MyISAM详解(最新推荐)》使用MyISAM存储引擎的表占用空间很小,但是由于使用表级锁定,所以限制了读/写操作的性能,通常用于中小型的Web应用和数据仓库配置中的只读或主要... 目录mysql 5.5 之前默认的存储引擎️‍一、MyISAM 存储引擎的特性️‍二、MyISAM 的主

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

《Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法》在Linux系统中,管理磁盘设备和分区是日常运维工作的重要部分,而lsblk命令是一个强大的工具,它用于列出系统中的块设备(blockde... 目录1. 查看所有磁盘的物理信息方法 1:使用 lsblk(推荐)方法 2:使用 fdisk -l(

SpringBoot如何对密码等敏感信息进行脱敏处理

《SpringBoot如何对密码等敏感信息进行脱敏处理》这篇文章主要为大家详细介绍了SpringBoot对密码等敏感信息进行脱敏处理的几个常用方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录​1. 配置文件敏感信息脱敏​​2. 日志脱敏​​3. API响应脱敏​​4. 其他注意事项​​总结

Python多进程、多线程、协程典型示例解析(最新推荐)

《Python多进程、多线程、协程典型示例解析(最新推荐)》:本文主要介绍Python多进程、多线程、协程典型示例解析(最新推荐),本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定... 目录一、multiprocessing(多进程)1. 模块简介2. 案例详解:并行计算平方和3. 实现逻

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4