java的jsoup介绍--java爬虫与java解析html

2024-05-24 08:38

本文主要是介绍java的jsoup介绍--java爬虫与java解析html,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

         最近的工作需要从网上抓取些信息,奈何不会python,暂时又没时间去研究它,只好用java来搞了。事实证明,做爬虫不一定要用python,java一样能做到。jsoup是java的文档解析工具,很方便,很强大。它可以将html文件、字符串或URL转化为Document对象,然后可以通过DOM、CSS和类似jQuery的操作方式,取出或设置属性和内容。它还可以清理不受信任的html,以防止XSS攻击。你能想到的,几乎它都能实现。

        先简单讲一下爬虫。爬虫,属于灰色区域吧,它从互联网上抓取我们所需的信息,可以自动按时执行,以一定的规则抓取页面,处理后存储或利用起来,把别人的资源变成自己的。一般先建立一个爬虫队列,将初始URL放入队列;爬取初始URL,获取内容和URL链接,内容处理,搜集存储自己需要的资源,链接标记为已爬取;获取内容里的所有url,将自己需要的url加入爬虫队列;从队列里取出一个未标记的url,继续爬取,获取内容,继续扩充爬虫队列;当所有url都是已爬取,爬取结束。

       再说一下jsoup。主要来说,使用它进行爬取,需要三步。

       首先,获取html,可以是文件,也可以是html字符串,也可以是url链接。然后,将html转化为Document对象。最后处理Document对象。处理时,可以获取指定id的元素属性或内容,也可以通过标签获取。可以获取1个对象,也可以获取1个队列。如果通过jsoup的方法满足不了你的数据截取需求,可以继续用处理字符串的方法处理,字符串拆分(split)成数组,再获取,或者用substring获取。

       下面以抓取汇率信息做个简易demo,抓取人民币到美元的汇率。直接上代码:

public static void main(String args[]) throws IOException{//jsoup文档:https://jsoup.org/apidocs/String from = "CNY";String to = "USD";String url = "http://hl.anseo.cn/cal_"+from+"_To_"+to+".aspx";Document doc = Jsoup.connect(url).get();Element  result = doc.getElementById("result");if(null != result ){Element pElement = result.getElementsByTag("p").get(1);System.out.println("所需的字符串:"+pElement);String [] array = pElement.html().split(" ");int i = 0;for(String aString : array){System.out.println("处理之后,array["+i+"]=\""+aString+"\"");i++;}String fromName = array[1];String toName = array[4];//double除法有问题,用bigdecimalBigDecimal a1 = new BigDecimal(array[3]);    BigDecimal rate = a1.multiply(new BigDecimal("0.01"));System.out.println("结果所需要的五个元素:"+fromName+"("+from+"),"+toName+"("+to+"),"+rate.doubleValue());System.out.println("汇率结果:"+rate.doubleValue());}}
执行结果:

所需的字符串:<p>100 人民币 = 14.5100 美元</p>
处理之后,array[0]="100"
处理之后,array[1]="人民币"
处理之后,array[2]="="
处理之后,array[3]="14.5100"
处理之后,array[4]="美元"
结果所需要的五个元素:人民币(CNY),美元(USD),0.1451
汇率结果:0.1451
      由此可见,只要是这个网站支持的汇率展示,我都可以抓取出来,存起来之后,就可以对外提供服务了。包装成对外的实时接口也是可以的,实时的去抓取这个网页,结果返回给用户。其他的业务也是类似,好多公司的数据都是这么来的,但是要考虑到被封杀和下毒的风险,还有法律风险喽。这只是个简单的实例,实际的爬虫程序,会更为复杂和强大,还会用到定时任务,数据库存储(DB,mongo,redis),索引(solr,Elasticsearch),多线程等技术。

    以上,jsoup真的很强大,java果然是世界上最棒的语言。

这篇关于java的jsoup介绍--java爬虫与java解析html的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997915

相关文章

java如何解压zip压缩包

《java如何解压zip压缩包》:本文主要介绍java如何解压zip压缩包问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java解压zip压缩包实例代码结果如下总结java解压zip压缩包坐在旁边的小伙伴问我怎么用 java 将服务器上的压缩文件解压出来,

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Spring WebFlux 与 WebClient 使用指南及最佳实践

《SpringWebFlux与WebClient使用指南及最佳实践》WebClient是SpringWebFlux模块提供的非阻塞、响应式HTTP客户端,基于ProjectReactor实现,... 目录Spring WebFlux 与 WebClient 使用指南1. WebClient 概述2. 核心依

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

java中新生代和老生代的关系说明

《java中新生代和老生代的关系说明》:本文主要介绍java中新生代和老生代的关系说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、内存区域划分新生代老年代二、对象生命周期与晋升流程三、新生代与老年代的协作机制1. 跨代引用处理2. 动态年龄判定3. 空间分