使用Jsoup抓取数据

2024-06-24 10:18
文章标签 抓取 数据 使用 jsoup

本文主要是介绍使用Jsoup抓取数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题

最近公司的市场部分布了一个问题,到一个网站截取一下医院的数据。刚好我也被安排做。后来,我发现为何不用脚本去抓取呢?
抓取的数据如下:
这里写图片描述

Jsoup的使用实战代码

结构

Created with Raphaël 2.1.0 开始 创建线程池 jsoup读取网页 解析Element 写入sqlite 结束
  • java代码
public class GetDoctorInfo {public GetDoctorInfo() {ExecutorService threadPool = Executors.newFixedThreadPool(5);//43有问题//73有问题for (int i = 1; i <= 100; i++) {String path = "http://so.haodf.com/index/search?type=hospitalfaculty&p=" + i + "&kw=%B8%BE%B2%FA%BF%C6";threadPool.execute(new GetDoctorRun(path));}threadPool.shutdown();}public static void main(String[] arg) {new GetDoctorInfo();}public static synchronized void printInfo(String sql) {System.out.println(sql);}public static String trans(String input) {String value;value = input.replaceAll("<td>", "").replaceAll("</td>", "").replaceAll("&nbsp;", "").replaceAll(" 地址地图:", "");return value;}/*** 获取医生的线程*/public class GetDoctorRun implements Runnable {final String mURL;public GetDoctorRun(String mURL) {this.mURL = mURL;}@Overridepublic void run() {try {Document doc = null;try {
//                    doc = (Document) Jsoup.parse(new URL("http://so.haodf.com/index/search?type=hospitalfaculty&p=99&kw=%B8%BE%B2%FA%BF%C6")
//                            , 1000);doc = (Document) Jsoup.parse(new URL(mURL), 3000);} catch (IOException e) {e.printStackTrace();}//定位到列表Elements elements = doc.getElementsByClass("list");Elements childElements = elements.get(0).getAllElements();Element child = childElements.get(3);//获得所有的超链接的数据Elements aLinks = child.getElementsByTag("a");ArrayList<String> name = new ArrayList<>();ArrayList<String> address = new ArrayList<>();for (int i = 1; i <= aLinks.size(); i++) {Element e = aLinks.get(i - 1);if (e.attr("target").equals("_blank")) {//排除 科室介绍//排除 门诊时间if (!e.text().equals("科室介绍") && !e.text().equals("门诊时间")) {//                            System.out.println("--" + e.text());if (i % 2 == 0) {if (e.text().equals("") || e.text() == null) {address.add("");} else {address.add(e.text());}} else {if (e.text().equals("") || e.text() == null) {name.add("");} else {name.add(e.text());}}}}}//将长连接的内容删除child.select("a").remove();child.select("span").remove();child.select("br").remove();String tran = trans(child.toString());//                System.out.println(tran);String[] phones = tran.substring("     电  话:".length(), tran.length() - 1).split("电  话:");System.out.println();System.out.println();System.out.println();for (int i = 0; i < name.size(); i++) {//                    System.out.println(phones[i]);//                    //INSERT INTO info(hospital_name,address,phone) VALUES ('gg','hhh','ddd');StringBuffer bufferValue = new StringBuffer("INSERT INTO info(hospital_name,address,phone) VALUES (");//医院名bufferValue.append("'").append(name.get(i)).append("'");//医院地址bufferValue.append(",'").append(address.get(i)).append("'");//医院的电话bufferValue.append(",'").append(phones[i].trim()).append("');");printInfo(bufferValue.toString());}if (name.size() != 10) {System.out.println("name==" + mURL);}if (address.size() != 10) {System.out.println("address=" + mURL);}if (phones.length != 10) {System.out.println("phone=" + phones.length + " " + mURL);}} catch (Exception e) {e.printStackTrace();}}}}
  • Terminal写入sqlte

.open hospital.db
sqlite3 -init sql

总结

jsoup的使用很简单,有点像解析xml。不过结果很好的,因为5,6个人的工作就被这个简单的代码实现了。解析技巧有一个尽量清除不必要的标签。如代码:

       child.select("a").remove();child.select("span").remove();child.select("br").remove();
  • 学会用脚本收集数据
  • 注意多谢线程并发的安全,要检验,要不很易出错
  • 对于多线程的问题关键是要确保你的内容不被竞争弄乱,所以提取出来进行代码块是很重要的。

最后补充一下最终的效果如下图

这篇关于使用Jsoup抓取数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1089863

相关文章

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的