解析神器PK,花落谁家?Jsoup Or Xpath?

2024-05-15 04:08

本文主要是介绍解析神器PK,花落谁家?Jsoup Or Xpath?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][color=green][size=large]
今天简单测了下使用Jsoup和Xpath解析XML的文件的方便程度,两者都可以完成解析,提取特定的元素或节点内容,但明显Jsoup更胜一筹,我们都知道Xpath是专业的xml结构化文档的查询语言,虽然语法功能强大,但是代码还是比较繁琐。虽然jsoup的出现,并不是专门用来解析XML使用的,但是使用jsoup这个轻巧的类库,我们可以完成网页抓取,HTML解析,模拟登陆等一些功能,jsoup完全仿Jquery的语法,提供了强大的操作DOM的能力,即高效又灵活,本篇,散仙仅仅通过一个简单的例子,来说明,jsoup如何以更少的代码,来完成更多的事。

解析的xml的例子如下:
[/size][/color][/b]

<?xml version="1.0" encoding="UTF-8"?>

<inventory>
<book year="2000">
<title>Snow Crash</title>
<author>Neal Stephenson</author>
<publisher>Spectra</publisher>
<isbn>0553380958</isbn>
<price>14.95</price>
</book>

<book year="2005">
<title>Burning Tower</title>
<author>Larry Niven</author>
<publisher>Pocket</publisher>
<isbn>0743416910</isbn>
<price>5.99</price>
</book>

<person year="2014">
<title>你好</title>
<author>星际旅行</author>
<publisher>工业出版社</publisher>
<isbn>2555555555</isbn>
<price>53.5</price>
</person>

<book year="1995">
<title>Zodiac</title>
<author>Neal Stephenson</author>
<publisher>Spectra</publisher>
<isbn>0553573862</isbn>
<price>57.50</price>
</book>
</inventory>


[b][color=olive][size=large]测试功能如下:打印book下的标题和价格,先看下xpath的写法:[/size][/color][/b]
 package com.testxpath;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathExpression;
import javax.xml.xpath.XPathFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;

public class XpathDemo {



public static void main(String[] args) throws Exception{



//Jaxp解析文档
DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
factory.setNamespaceAware(true);
DocumentBuilder builder=factory.newDocumentBuilder();
Document doc=builder.parse("a.xml");


XPathFactory xft=XPathFactory.newInstance();
XPath xpath=xft.newXPath();
XPathExpression expr=xpath.compile("//book/title//text() | //book/price//text()");//某个元素下的所有元素
Object result=expr.evaluate(doc, XPathConstants.NODESET);
NodeList nodes=(NodeList)result;
for(int i=0;i<nodes.getLength();i++){
Node item = nodes.item(i);
System.out.println(" 节点名: "+item.getNodeName()+" 节点值: "+item.getNodeValue());
}




}

}




[b][color=olive][size=large]再看下jsoup的写法:[/size][/color][/b]
package com.testxpath;

import java.io.File;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupDemo {

public static void main(String[] args) throws Exception{

// Document d=Jsoup.parse("a.xml");//无效
Document d=Jsoup.parse(new File("a.xml"),"UTF-8");//必须使用这种方式解析
for(Element el:d.select("book")){
System.out.println("标题:"+el.select("title").text()+" 价格: "+el.select("price").text());

}

}

}



[b][color=olive][size=large]从上面一个简单的功能,就能看出jsoup的简单,快捷,强大之处了,而且操作的元素非常规整,而Xpath则比较乱,虽然可以拿到具体的文本,但是不规整,想把相关的元素的放在一行打印显示,还需要做一些工作。

当然xpath和jsoup的功能,远远不如此,xpath在过滤关面,有很多用法,非常强大,但是节点的准确定位,遍历查询方面,比较弱,而jsoup则使用CSS Query的用法,非常贴切,只要你会用jquery,css,基本使用jsoup都是手到擒来的事,此外,jsoup的强大之处还在网页解析和抽取,有兴趣的朋友,可以了解一下,散仙在这里就不多涉及了.
[/size][/color][/b]

这篇关于解析神器PK,花落谁家?Jsoup Or Xpath?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990762

相关文章

Spring Boot 实现 IP 限流的原理、实践与利弊解析

《SpringBoot实现IP限流的原理、实践与利弊解析》在SpringBoot中实现IP限流是一种简单而有效的方式来保障系统的稳定性和可用性,本文给大家介绍SpringBoot实现IP限... 目录一、引言二、IP 限流原理2.1 令牌桶算法2.2 漏桶算法三、使用场景3.1 防止恶意攻击3.2 控制资源

Java Spring ApplicationEvent 代码示例解析

《JavaSpringApplicationEvent代码示例解析》本文解析了Spring事件机制,涵盖核心概念(发布-订阅/观察者模式)、代码实现(事件定义、发布、监听)及高级应用(异步处理、... 目录一、Spring 事件机制核心概念1. 事件驱动架构模型2. 核心组件二、代码示例解析1. 事件定义

CSS place-items: center解析与用法详解

《CSSplace-items:center解析与用法详解》place-items:center;是一个强大的CSS简写属性,用于同时控制网格(Grid)和弹性盒(Flexbox)... place-items: center; 是一个强大的 css 简写属性,用于同时控制 网格(Grid) 和 弹性盒(F

python常见环境管理工具超全解析

《python常见环境管理工具超全解析》在Python开发中,管理多个项目及其依赖项通常是一个挑战,下面:本文主要介绍python常见环境管理工具的相关资料,文中通过代码介绍的非常详细,需要的朋友... 目录1. conda2. pip3. uvuv 工具自动创建和管理环境的特点4. setup.py5.

全面解析HTML5中Checkbox标签

《全面解析HTML5中Checkbox标签》Checkbox是HTML5中非常重要的表单元素之一,通过合理使用其属性和样式自定义方法,可以为用户提供丰富多样的交互体验,这篇文章给大家介绍HTML5中C... 在html5中,Checkbox(复选框)是一种常用的表单元素,允许用户在一组选项中选择多个项目。本

Python包管理工具核心指令uvx举例详细解析

《Python包管理工具核心指令uvx举例详细解析》:本文主要介绍Python包管理工具核心指令uvx的相关资料,uvx是uv工具链中用于临时运行Python命令行工具的高效执行器,依托Rust实... 目录一、uvx 的定位与核心功能二、uvx 的典型应用场景三、uvx 与传统工具对比四、uvx 的技术实

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析

《Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析》InstantiationAwareBeanPostProcessor是Spring... 目录一、什么是InstantiationAwareBeanPostProcessor?二、核心方法解