jsoup解析的使用

2024-06-07 08:58
文章标签 使用 解析 jsoup

本文主要是介绍jsoup解析的使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【准备工作】

下载:jsoup-1.6.1.jar

【先看效果】

目标网站 : 中国天气  

目的 :获取今天的天气

目标HTML代码 :

<li class="dn on" data-dn="7d1">
  <h1>今天</h1>
  <h2>8日</h2>
  <big class="jpg50 d04"></big>
  <big class="jpg50 n04"></big>    
  <p class="wea" title="雷阵雨">雷阵雨</p>
  <p class="tem tem1"> <span>33</span><i>°C</i> </p>
  <p class="tem tem2"> <span>25</span><i>°C</i> </p>
  <p class="win">
    <em>
      <span title="无持续风向" class=""></span>
      <span title="无持续风向" class=""></span>
    </em>
    <i>微风</i>
  </p>
  <div class="slid"></div>
</li>
View Code

解析的java代码 :

(1)审查网页元素后发现,我们要的内容在上面的目标HTML代码中,在整个网页中是在 class="dn on" data-dn="7d1" 的 <li> 中

(2)“今天” 两字在 <h1></h1> 中

(3)“8日” 两字在 <h2></h2> 中

(4)“雷阵雨” 三字在 class="wea" 中

(5)“33” 在第一个 <span> 中

(6)“25” 在第二个 <span> 中

(7)“微风” 两字在 第三个 <i> 中

有了上面的分析,要获取到这些天气内容就易如反掌了。如下java代码:

 1 package com.zjm.www.test;
 2 
 3 import java.io.IOException;
 4 
 5 import org.jsoup.Jsoup;
 6 import org.jsoup.nodes.Document;
 7 import org.jsoup.select.Elements;
 8 
 9 public class TestJsoup {
10     
11     public  Document getDocument (String url){
12         try {
13             return Jsoup.connect(url).get();
14         } catch (IOException e) {
15             e.printStackTrace();
16         }
17         return null;
18     }
19 
20     public static void main(String[] args) {
21         TestJsoup t = new TestJsoup();
22         Document doc = t.getDocument("http://www.weather.com.cn/html/weather/101280101.shtml");
23         // 获取目标HTML代码
24         Elements elements1 = doc.select("[class=dn on][data-dn=7d1]");
25         // 今天
26         Elements elements2 = elements1.select("h1");
27         String today = elements2.get(0).text();
28         System.out.println(today);
29         // 几号
30         Elements elements3 = elements1.select("h2");
31         String number = elements3.get(0).text();
32         System.out.println(number);
33         // 是否有雨
34         Elements elements4 = elements1.select("[class=wea]");
35         String rain = elements4.get(0).text();
36         System.out.println(rain);
37         // 高的温度
38         Elements elements5 = elements1.select("span");
39         String highTemperature = elements5.get(0).text()+"°C";
40         System.out.println(highTemperature);
41         // 低的温度
42         String lowTemperature = elements5.get(1).text()+"°C";
43         System.out.println(lowTemperature);
44         // 风力
45         Elements elements6 = elements1.select("i");
46         String wind = elements6.get(2).text();
47         System.out.println(wind);
48     }
49 }
View Code

结果打印出 :

1 今天
2 8日
3 雷阵雨
4 33°C
5 25°C
6 微风

【详解】

附:

  • jsoup的 官方中文文档 为: http://www.open-open.com/
  • API 为: http://jsoup.org/apidocs/

java代码第13行 :

从文档中我们可用看出,获取数据源的方法有 三 :

(1)从一段 html代码字符串 获取: Document doc = Jsoup.parse(html);

(2)从一个 url 获取: Document doc = Jsoup.connect("http://example.com/").get();

(3)从一个 html文件 获取 File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

这里,我们采取了第二种方法,从url中获取。

java代码第24、26、30、34、38行 :

Document 继承自 Element 类, 而Element类有一个很好的方法,叫select , 这个选择器几乎无所不能。快速从一堆html代码中获取我们想要的一段,我觉得使用select最方便。下面我们来看怎么使用select方法来查找。

注 :以下表格的 结果 都是使用以下语句打印出来的

for(Element e : elements) {System.out.println(e.text());}
select详解
描述测试的HTML代码select写法

结果

通过

标签名

来查找

<span>33</span>
<span>25</span>
Elements elements = doc.select("span");
注 :通过标签来查找,直接写 "标签名" 就好, 不需要尖括号。
33
25

通过

id 

来查找

<span  id=\"mySpan\">36</span><span>20</span>
Elements elements = doc.select("#mySpan");

注 :通过id来查找,使用方法跟 css 指定元素一样,用 #

 

通过

class名

  来查找

<span class=\"myClass\">36</span>
<span>20</span>
Elements elements = doc.select(".myClass");

注 :通过id来查找,使用方法跟 css 指定元素一样,用 

 

利用标签内

属性名

  查找元素

<span class=\"class1\" id=\"id1\">36</span>
<span class=\"class2\" id=\"id2\">36</span>
Elements elements = doc.select("span[class=class1]span[id=id1]");

注 :规则为 标签名【属性名=属性值】 ,标签名可写可不写,多个属性即多个【】,如上。

 

利用标签内

属性名前缀  

查找元素

<span class=\"class1\" >36</span>
<span class=\"class2\" >22</span>
Elements elements = doc.select("span[^cl]");

注 :规则为 标签名【^属性名前缀】 ,标签名可写可不写, 多个属性即多个【】。

36
22

利用标签内

属性名+正则表达式

查找元素

<span class=\"ABC\" >36</span>
<span class=\"ADE\" >22</span>
Elements elements = doc.select("span[class~=^AB]");

 注 :规则为 标签名【属性名~=正则表达式】,以上的正则表达式的意思是查找以class值以AB为开头的标签,标签名可写可不写,多个属性即多个【】

 

利用标签

文本包含某些内容

来查找

<span>36</span>
<span>22</span>
Elements elements = doc.select("span:contains(3)");

 注 :规则为 标签名:contains(文本值)

 

利用标签

文本包含某些内容+正则表达式

来查找

<span>36</span>
<span>22</span>
Elements elements = doc.select("span:matchesOwn(^3)");

注 :规则为  标签名:matchesOwn(正则表达式),以上的正则表式的意思是以文本值以3为开头的标签

 

关于select,还有一些其他的查找方法,以上只列出个人觉得比较好用、常用的语法。

select方法返回的是一个Elements 对象,里面包含着找到的所有节点。遍历Elements ,通过 get(index) ,就可以拿出具体的 节点了。通过节点的 text() 方法,就可用拿出文本值。

而想得到节点的其他属性,可以看API的介绍。

【结语】

jsoup还有其他强大的功能,在此只介绍其在获取网页特定内容的写法。希望对 刚接触jsoup 的人有帮助。

如果本文有哪里写得不好或写错,欢迎各位提出来,感激不尽~

这篇关于jsoup解析的使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038720

相关文章

Go语言使用slices包轻松实现排序功能

《Go语言使用slices包轻松实现排序功能》在Go语言开发中,对数据进行排序是常见的需求,Go1.18版本引入的slices包提供了简洁高效的排序解决方案,支持内置类型和用户自定义类型的排序操作,本... 目录一、内置类型排序:字符串与整数的应用1. 字符串切片排序2. 整数切片排序二、检查切片排序状态:

MyBatis分页插件PageHelper深度解析与实践指南

《MyBatis分页插件PageHelper深度解析与实践指南》在数据库操作中,分页查询是最常见的需求之一,传统的分页方式通常有两种内存分页和SQL分页,MyBatis作为优秀的ORM框架,本身并未提... 目录1. 为什么需要分页插件?2. PageHelper简介3. PageHelper集成与配置3.

使用Java将实体类转换为JSON并输出到控制台的完整过程

《使用Java将实体类转换为JSON并输出到控制台的完整过程》在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用JSON格式,用Java将实体类转换为J... 在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用j

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

Python logging模块使用示例详解

《Pythonlogging模块使用示例详解》Python的logging模块是一个灵活且强大的日志记录工具,广泛应用于应用程序的调试、运行监控和问题排查,下面给大家介绍Pythonlogging模... 目录一、为什么使用 logging 模块?二、核心组件三、日志级别四、基本使用步骤五、快速配置(bas

SQL 外键Foreign Key全解析

《SQL外键ForeignKey全解析》外键是数据库表中的一列(或一组列),用于​​建立两个表之间的关联关系​​,外键的值必须匹配另一个表的主键(PrimaryKey)或唯一约束(UniqueCo... 目录1. 什么是外键?​​ ​​​​2. 外键的语法​​​​3. 外键的约束行为​​​​4. 多列外键​

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

Java进行日期解析与格式化的实现代码

《Java进行日期解析与格式化的实现代码》使用Java搭配ApacheCommonsLang3和Natty库,可以实现灵活高效的日期解析与格式化,本文将通过相关示例为大家讲讲具体的实践操作,需要的可以... 目录一、背景二、依赖介绍1. Apache Commons Lang32. Natty三、核心实现代

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Python文件操作与IO流的使用方式

《Python文件操作与IO流的使用方式》:本文主要介绍Python文件操作与IO流的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python文件操作基础1. 打开文件2. 关闭文件二、文件读写操作1.www.chinasem.cn 读取文件2. 写