利用dom4j解析xml

2024-08-26 15:32
文章标签 xml 解析 dom4j

本文主要是介绍利用dom4j解析xml,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

最近有个项目需要解析xml 文件,获取其中的节点内容, 小编选择了一个编码简单又高效的dom4j来完成。

1、xml内容

<?xml version="1.0" encoding="UTF-8"?>
<RecognizeResult><Speech Uri="/Sub/2019-12-03.3/file/5149-15892322607-20191202141010-rJKTcXfpB_datang.wav" Duration="252840"><ResultCode>0</ResultCode><Confidence>100</Confidence><Subject Name="RecognizeText"><Role Name="R0"><EndPoint Count="44"><Item Begin="13340" End="13450"><Text>喂。 </Text><Time>13340,13450 </Time></Item><Item Begin="15860" End="16240"><Text>喂。 </Text><Time>15860,16240 </Time></Item></EndPoint></Role><Role Name="R1"><EndPoint Count="35"><Item Begin="17990" End="20080"><Text>哎 喂 是 王 斌 先生 是吗 啊! </Text><Time>17990,18100 18100,18340 18340,18550 18550,18940 18940,19120 19120,19510 19510,19820 19860,20080 </Time></Item><Item Begin="20630" End="21190"><Text>对 是啊! </Text><Time>20630,20860 20860,21190 </Time></Item></EndPoint></Role></Subject></Speech>
</RecognizeResult>

需求是,将其中的汉子分角色(R0,R1)解析出来,并且拼接成字符串,然后发送给消息队列。

2、引入jar包

  <dependency><groupId>dom4j</groupId><artifactId>dom4j</artifactId><version>1.6.1</version></dependency>

 

3、代码实现

package com.zj.zhijian.service;import com.zqf.common.utils.DateUtils;
import org.dom4j.Attribute;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;import java.io.File;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;/*** @author zhenghao* @description: 解析xml* @date 2019/12/318:33*/
@Service
public class ParseXmlService {private static Logger log = LoggerFactory.getLogger(ParseXmlService.class);@Value("${base.file.path}")private String baseFilePath;//获得文件 测试方法public void xmlFile() {//String toDayStartYMD = DateUtils.getToDayStartYMD();String date = "2019-12";for (int j = 1; j <= 4; j++) {String toDayStartYMD = date + "-0" + j;for (int i = 0; i < 24; i++) {String filePath = baseFilePath + toDayStartYMD + "." + i + "/file/";log.info("文件路径" + filePath);parseXml(filePath);}}}public void parseXml(String strFile) {try {long l = System.currentTimeMillis();List<String> R0List = new ArrayList<>();List<String> R1List = new ArrayList<>();File file = new File(strFile);String[] filePath = file.list();if (filePath == null || filePath.length <= 0) {return;}log.info("xml个数" + filePath.length);for (String s : filePath) {if (!s.contains(".xml")) {continue;}String tempFilePath = strFile + s;//1.创建Reader对象SAXReader reader = new SAXReader();//2.加载xmlDocument document = reader.read(new File(tempFilePath));//3.获取根节点Element rootElement = document.getRootElement();StringBuilder sb = new StringBuilder();//4、获得指定子节点Element speechElement = rootElement.element("Speech");//5、获得节点属性Attribute duration = speechElement.attribute("Duration");String value = duration.getValue();int telLength = Integer.valueOf(value) / 1000;if (telLength <= 45) {continue;}//默认返回第一节点Element subjectElement = speechElement.element("Subject");if (subjectElement == null) {continue;}Iterator iterator3 = subjectElement.elementIterator();while (iterator3.hasNext()) {Element roleElement = (Element) iterator3.next();Attribute name = roleElement.attribute("Name");Element endPointElement = roleElement.element("EndPoint");//获得所有子节点Iterator iterator1 = endPointElement.elementIterator();while (iterator1.hasNext()) {Element itemElement = (Element) iterator1.next();Element textElement = itemElement.element("Text");String stringValue = textElement.getStringValue();if (name.getValue().equals("R0")) {sb.append(stringValue);R0List.add(stringValue);} else {R1List.add(stringValue);}}}}System.out.println(System.currentTimeMillis() - l);} catch (DocumentException e) {e.printStackTrace();}}

4、多种解析xml方式对比,请参考下面文章

https://blog.csdn.net/hao134838/article/details/103402694

这篇关于利用dom4j解析xml的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1108960

相关文章

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?

99%的人都选错了! 路由器WiFi双频合一还是分开好的专业解析与适用场景探讨

《99%的人都选错了!路由器WiFi双频合一还是分开好的专业解析与适用场景探讨》关于双频路由器的“双频合一”与“分开使用”两种模式,用户往往存在诸多疑问,本文将从多个维度深入探讨这两种模式的优缺点,... 在如今“没有WiFi就等于与世隔绝”的时代,越来越多家庭、办公室都开始配置双频无线路由器。但你有没有注

Python中的sort()和sorted()用法示例解析

《Python中的sort()和sorted()用法示例解析》本文给大家介绍Python中list.sort()和sorted()的使用区别,详细介绍其参数功能及Timsort排序算法特性,涵盖自适应... 目录一、list.sort()参数说明常用内置函数基本用法示例自定义函数示例lambda表达式示例o

MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)

《MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)》本文给大家介绍MyBatis的xml中字符串类型判空与非字符串类型判空处理方式,本文给大家介绍的非常详细,对大家的学习或... 目录完整 Hutool 写法版本对比优化为什么status变成Long?为什么 price 没事?怎

SpringBoot加载profile全面解析

《SpringBoot加载profile全面解析》SpringBoot的Profile机制通过多配置文件和注解实现环境隔离,支持开发、测试、生产等不同环境的灵活配置切换,无需修改代码,关键点包括配置文... 目录题目详细答案什么是 Profile配置 Profile使用application-{profil

MySQL的触发器全解析(创建、查看触发器)

《MySQL的触发器全解析(创建、查看触发器)》MySQL触发器是与表关联的存储程序,当INSERT/UPDATE/DELETE事件发生时自动执行,用于维护数据一致性、日志记录和校验,优点包括自动执行... 目录触发器的概念:创建触www.chinasem.cn发器:查看触发器:查看当前数据库的所有触发器的定

Java中的volatile关键字多方面解析

《Java中的volatile关键字多方面解析》volatile用于保证多线程变量可见性与禁止重排序,适用于状态标志、单例模式等场景,但不保证原子性,相较synchronized更轻量,但需谨慎使用以... 目录1. volatile的作用1.1 保证可见性1.2 禁止指令重排序2. volatile的使用

Python lambda函数(匿名函数)、参数类型与递归全解析

《Pythonlambda函数(匿名函数)、参数类型与递归全解析》本文详解Python中lambda匿名函数、灵活参数类型和递归函数三大进阶特性,分别介绍其定义、应用场景及注意事项,助力编写简洁高效... 目录一、lambda 匿名函数:简洁的单行函数1. lambda 的定义与基本用法2. lambda

深入解析Java NIO在高并发场景下的性能优化实践指南

《深入解析JavaNIO在高并发场景下的性能优化实践指南》随着互联网业务不断演进,对高并发、低延时网络服务的需求日益增长,本文将深入解析JavaNIO在高并发场景下的性能优化方法,希望对大家有所帮助... 目录简介一、技术背景与应用场景二、核心原理深入分析2.1 Selector多路复用2.2 Buffer