利用dom4j解析xml

2024-08-26 15:32
文章标签 xml 解析 dom4j

本文主要是介绍利用dom4j解析xml,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

最近有个项目需要解析xml 文件,获取其中的节点内容, 小编选择了一个编码简单又高效的dom4j来完成。

1、xml内容

<?xml version="1.0" encoding="UTF-8"?>
<RecognizeResult><Speech Uri="/Sub/2019-12-03.3/file/5149-15892322607-20191202141010-rJKTcXfpB_datang.wav" Duration="252840"><ResultCode>0</ResultCode><Confidence>100</Confidence><Subject Name="RecognizeText"><Role Name="R0"><EndPoint Count="44"><Item Begin="13340" End="13450"><Text>喂。 </Text><Time>13340,13450 </Time></Item><Item Begin="15860" End="16240"><Text>喂。 </Text><Time>15860,16240 </Time></Item></EndPoint></Role><Role Name="R1"><EndPoint Count="35"><Item Begin="17990" End="20080"><Text>哎 喂 是 王 斌 先生 是吗 啊! </Text><Time>17990,18100 18100,18340 18340,18550 18550,18940 18940,19120 19120,19510 19510,19820 19860,20080 </Time></Item><Item Begin="20630" End="21190"><Text>对 是啊! </Text><Time>20630,20860 20860,21190 </Time></Item></EndPoint></Role></Subject></Speech>
</RecognizeResult>

需求是,将其中的汉子分角色(R0,R1)解析出来,并且拼接成字符串,然后发送给消息队列。

2、引入jar包

  <dependency><groupId>dom4j</groupId><artifactId>dom4j</artifactId><version>1.6.1</version></dependency>

 

3、代码实现

package com.zj.zhijian.service;import com.zqf.common.utils.DateUtils;
import org.dom4j.Attribute;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;import java.io.File;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;/*** @author zhenghao* @description: 解析xml* @date 2019/12/318:33*/
@Service
public class ParseXmlService {private static Logger log = LoggerFactory.getLogger(ParseXmlService.class);@Value("${base.file.path}")private String baseFilePath;//获得文件 测试方法public void xmlFile() {//String toDayStartYMD = DateUtils.getToDayStartYMD();String date = "2019-12";for (int j = 1; j <= 4; j++) {String toDayStartYMD = date + "-0" + j;for (int i = 0; i < 24; i++) {String filePath = baseFilePath + toDayStartYMD + "." + i + "/file/";log.info("文件路径" + filePath);parseXml(filePath);}}}public void parseXml(String strFile) {try {long l = System.currentTimeMillis();List<String> R0List = new ArrayList<>();List<String> R1List = new ArrayList<>();File file = new File(strFile);String[] filePath = file.list();if (filePath == null || filePath.length <= 0) {return;}log.info("xml个数" + filePath.length);for (String s : filePath) {if (!s.contains(".xml")) {continue;}String tempFilePath = strFile + s;//1.创建Reader对象SAXReader reader = new SAXReader();//2.加载xmlDocument document = reader.read(new File(tempFilePath));//3.获取根节点Element rootElement = document.getRootElement();StringBuilder sb = new StringBuilder();//4、获得指定子节点Element speechElement = rootElement.element("Speech");//5、获得节点属性Attribute duration = speechElement.attribute("Duration");String value = duration.getValue();int telLength = Integer.valueOf(value) / 1000;if (telLength <= 45) {continue;}//默认返回第一节点Element subjectElement = speechElement.element("Subject");if (subjectElement == null) {continue;}Iterator iterator3 = subjectElement.elementIterator();while (iterator3.hasNext()) {Element roleElement = (Element) iterator3.next();Attribute name = roleElement.attribute("Name");Element endPointElement = roleElement.element("EndPoint");//获得所有子节点Iterator iterator1 = endPointElement.elementIterator();while (iterator1.hasNext()) {Element itemElement = (Element) iterator1.next();Element textElement = itemElement.element("Text");String stringValue = textElement.getStringValue();if (name.getValue().equals("R0")) {sb.append(stringValue);R0List.add(stringValue);} else {R1List.add(stringValue);}}}}System.out.println(System.currentTimeMillis() - l);} catch (DocumentException e) {e.printStackTrace();}}

4、多种解析xml方式对比,请参考下面文章

https://blog.csdn.net/hao134838/article/details/103402694

这篇关于利用dom4j解析xml的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1108960

相关文章

Spring Boot 实现 IP 限流的原理、实践与利弊解析

《SpringBoot实现IP限流的原理、实践与利弊解析》在SpringBoot中实现IP限流是一种简单而有效的方式来保障系统的稳定性和可用性,本文给大家介绍SpringBoot实现IP限... 目录一、引言二、IP 限流原理2.1 令牌桶算法2.2 漏桶算法三、使用场景3.1 防止恶意攻击3.2 控制资源

Java Spring ApplicationEvent 代码示例解析

《JavaSpringApplicationEvent代码示例解析》本文解析了Spring事件机制,涵盖核心概念(发布-订阅/观察者模式)、代码实现(事件定义、发布、监听)及高级应用(异步处理、... 目录一、Spring 事件机制核心概念1. 事件驱动架构模型2. 核心组件二、代码示例解析1. 事件定义

CSS place-items: center解析与用法详解

《CSSplace-items:center解析与用法详解》place-items:center;是一个强大的CSS简写属性,用于同时控制网格(Grid)和弹性盒(Flexbox)... place-items: center; 是一个强大的 css 简写属性,用于同时控制 网格(Grid) 和 弹性盒(F

python常见环境管理工具超全解析

《python常见环境管理工具超全解析》在Python开发中,管理多个项目及其依赖项通常是一个挑战,下面:本文主要介绍python常见环境管理工具的相关资料,文中通过代码介绍的非常详细,需要的朋友... 目录1. conda2. pip3. uvuv 工具自动创建和管理环境的特点4. setup.py5.

全面解析HTML5中Checkbox标签

《全面解析HTML5中Checkbox标签》Checkbox是HTML5中非常重要的表单元素之一,通过合理使用其属性和样式自定义方法,可以为用户提供丰富多样的交互体验,这篇文章给大家介绍HTML5中C... 在html5中,Checkbox(复选框)是一种常用的表单元素,允许用户在一组选项中选择多个项目。本

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

Python包管理工具核心指令uvx举例详细解析

《Python包管理工具核心指令uvx举例详细解析》:本文主要介绍Python包管理工具核心指令uvx的相关资料,uvx是uv工具链中用于临时运行Python命令行工具的高效执行器,依托Rust实... 目录一、uvx 的定位与核心功能二、uvx 的典型应用场景三、uvx 与传统工具对比四、uvx 的技术实

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和