【从零开始学爬虫】采集事业单位最新招聘信息

2024-06-02 01:18

本文主要是介绍【从零开始学爬虫】采集事业单位最新招聘信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

l 采集网站

【场景描述】采集上海交通大学最新招聘信息。

【爬虫下载】http://forenose.com/view/forespider/view/download.html

【入口网址】https://postd.sjtu.edu.cn/bshzp/10.htm

图片

【采集内容】

采集该网站上发布的招聘公告信息,采集字段为:招聘标题、发布时间、招聘正文。

图片

l 思路分析

配置思路概览:

图片

 

l 配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

图片

继续勾选列表链接、普通翻页,然后点击完成,创建成功。

图片

 

2. 抽取列表链接

配置列表链接,将所有招聘公告的链接都抽取出来,在此使用定位过滤链接的方法来抽取列表链接。具体操作如下图所示:

①选中模板中的链表链接。

②选中列表链接选区,shift+鼠标单击某个链接,Ctrl、+鼠标单击其他翻页扩大选区,从而选中所有列表链接。

③点击【确认选区】。

④保存配置。

图片

⑤采集预览

点击右上角【采集预览】,看所需要的列表链接是否都抽取出来。

图片

3. 抽取翻页

翻页抽取也是用定位过滤链接的方法,进行抽取。具体如下图所示:

①选中模板中的普通翻页链接抽取。

②选中所有翻页选区,shift+鼠标单击某个翻页,Ctrl+鼠标单击其他翻页扩大选区,从而选中所有翻页。

③确认选区。

④点击【保存】按钮,保存配置。

图片

⑤采集预览

点击右上方【采集预览】,选择普通翻页,查看是否采集到所以翻页,如下图所示即为采集到。

图片

4. 关联模板

检查模板01中的两个链接抽取关联模板是否正确。列表链接应关联模板02,普通翻页应关联模板01,分别如下图所示。

图片

图片

5. 数据抽取

①选中列表链接02,新建一个数据抽取。具体操作如下图所示:

图片

②此时要完成数据建表的工作:选择【数据建表】,点击【采集数据表结构】中的【+】,即可添加数据表,名称可以自定义。

图片

添加字段,各字段属性如下图所示:

图片

③数据表配置完成,选择【数据抽取】右侧数据属性配置,表单选择刚建立的“招聘信息”数据表,则可看到表单中的字段在右侧显示。

图片

④填写示例地址

采集预览,右击任意一条链接,复制该招聘链接。

图片

将该链接填写在模板02的示例地址中,并点击右上角保存按钮。如下图所示:

图片

⑤抽取字段数据

双击内置浏览器空白处,这时内置浏览器显示为刚才示例地址页面,使用定位过滤的方法配置每一个字段。

title字段:选中title字段,shift+点击页面中标题,ctrl+鼠标单击扩大选中区域,选中标题后,点击【确认选区】按钮,点击【保存】按钮。

图片

pubtime字段:操作步骤类似,但是由于选中的为【时间:2021年07月05日】,所以使用数据清洗功能,清洗掉【时间:】,具体设置如下图所示:

图片

content字段:操作步骤类似,具体如下图所示:

图片

⑥以上完成全部字段配置,效果预览如下:

图片

 

6.数据采集

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为zhaopin(注意命名不能用数字和特殊符号),点击【确定】。

图片

创建完成,勾选数据表,点击保存。

图片

②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

图片

③可以在【数据浏览】中,选择数据表查看采集数据。

图片

④导出数据

图片

导出数据表如下图所示:

图片

这篇关于【从零开始学爬虫】采集事业单位最新招聘信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022634

相关文章

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

最新Spring Security的基于内存用户认证方式

《最新SpringSecurity的基于内存用户认证方式》本文讲解SpringSecurity内存认证配置,适用于开发、测试等场景,通过代码创建用户及权限管理,支持密码加密,虽简单但不持久化,生产环... 目录1. 前言2. 因何选择内存认证?3. 基础配置实战❶ 创建Spring Security配置文件

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

MySQL 迁移至 Doris 最佳实践方案(最新整理)

《MySQL迁移至Doris最佳实践方案(最新整理)》本文将深入剖析三种经过实践验证的MySQL迁移至Doris的最佳方案,涵盖全量迁移、增量同步、混合迁移以及基于CDC(ChangeData... 目录一、China编程JDBC Catalog 联邦查询方案(适合跨库实时查询)1. 方案概述2. 环境要求3.

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

《SpringBootspring-boot-maven-plugin参数配置详解(最新推荐)》文章介绍了SpringBootMaven插件的5个核心目标(repackage、run、start... 目录一 spring-boot-maven-plugin 插件的5个Goals二 应用场景1 重新打包应用

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri