使用WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(一)

2024-08-28 11:38

本文主要是介绍使用WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

由于近期做毕设,需要从网站上爬取教学资源,下面实现一个简单的爬虫,并将爬取的数据保存到数据库中。

一:有关爬虫框架的选取,我使用的是WebMagic爬虫框架,中文文档:http://webmagic.io/docs/zh/

它是一个开源项目,github地址:https://github.com/code4craft/webmagic,之前想用python写爬虫的,也写了一点,但还要学习操作数据库的,想想还是用java爬虫框架吧,做完毕设再好好学学python。

二:首先看一下要爬取的内容,专业名字、课程数量、专业类别、url链接,然后将其存入数据库


三:定义一个实体类,属性对应,由于使用的SSH框架,之后我们将爬到的数据给这个对象,然后保存对象即可。

四:爬虫具体代码:

(1)实现PageProcessor接口,并实现其中的方法,下面会使用到service,这里得到Spring容器对象,然后得到需要的service


(2)然后重写process方法,提取需要的内容,这里主要使用了xpath,还有很多方法, 具体看其中文文档。

之前我也用了正则表达式,有个网站可以进行正则表达式的转换,还不错:http://www.txt2re.com/

(3)然后封装成对象,保存到数据库即可。

其中抽取到的课程数量是在一段文字中,使用正则匹配得到其中的数字。



五:一些问题:

(1)由于我这个爬虫的抓取有分页,而且它的分页通过js跳转的,抽取出来感觉有点麻烦,我想直接得到所有的信息,发现可以通过输入url地址请求得到所有的信息(这是网站的一个小问题,它没有设置每页数据记录条数的范围),但是需要登录才可以进行url地址的访问,就要使用cookie模拟登录。

(2)下面分析有关登录信息的cookie,我使用的是chrome,点击如图位置,会看到此网站的cookie,(如果已经访问了一段时间了,可以清除所有cookie然后重新登录再访问,否则可能会有很多的cookie,分析起来不方便),由于只有5个cookie,直接加上就可以访问了,看步骤四(1)中site的设置。


六:测试结果

数据保存成功。


七:总结

这只是一个简单的爬虫,后面还要接着爬取数据,感觉还是可以学到很多东西的。

这篇关于使用WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1114658

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

Java 实用工具类Spring 的 AnnotationUtils详解

《Java实用工具类Spring的AnnotationUtils详解》Spring框架提供了一个强大的注解工具类org.springframework.core.annotation.Annot... 目录前言一、AnnotationUtils 的常用方法二、常见应用场景三、与 JDK 原生注解 API 的

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及

Java中的StringBuilder之如何高效构建字符串

《Java中的StringBuilder之如何高效构建字符串》本文将深入浅出地介绍StringBuilder的使用方法、性能优势以及相关字符串处理技术,结合代码示例帮助读者更好地理解和应用,希望对大家... 目录关键点什么是 StringBuilder?为什么需要 StringBuilder?如何使用 St

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

redis中使用lua脚本的原理与基本使用详解

《redis中使用lua脚本的原理与基本使用详解》在Redis中使用Lua脚本可以实现原子性操作、减少网络开销以及提高执行效率,下面小编就来和大家详细介绍一下在redis中使用lua脚本的原理... 目录Redis 执行 Lua 脚本的原理基本使用方法使用EVAL命令执行 Lua 脚本使用EVALSHA命令

Java并发编程之如何优雅关闭钩子Shutdown Hook

《Java并发编程之如何优雅关闭钩子ShutdownHook》这篇文章主要为大家详细介绍了Java如何实现优雅关闭钩子ShutdownHook,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 目录关闭钩子简介关闭钩子应用场景数据库连接实战演示使用关闭钩子的注意事项开源框架中的关闭钩子机制1.

Maven中引入 springboot 相关依赖的方式(最新推荐)

《Maven中引入springboot相关依赖的方式(最新推荐)》:本文主要介绍Maven中引入springboot相关依赖的方式(最新推荐),本文给大家介绍的非常详细,对大家的学习或工作具有... 目录Maven中引入 springboot 相关依赖的方式1. 不使用版本管理(不推荐)2、使用版本管理(推

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows