docx4j 的使用

2024-06-05 18:20
文章标签 使用 docx4j

本文主要是介绍docx4j 的使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

docx4j解析word模板-CSDN博客

<dependency>
    <groupId>org.docx4j</groupId>
    <artifactId>docx4j-core</artifactId>
    <version>8.3.9</version>
</dependency>
<dependency>
    <groupId>org.docx4j</groupId>
    <artifactId>docx4j-export-fo</artifactId>
    <version>8.3.9</version>
</dependency>
<dependency>
    <groupId>org.docx4j</groupId>
    <artifactId>docx4j-JAXB-ReferenceImpl</artifactId>
    <version>8.3.9</version>
</dependency>

注意:

docx4j-core 8.3.9 jdk1.8

docx4j-core 11.4.9 jdk11

文本切分

try {// 读取.docx文件File wordFile = new File("src/main/resources/data/doc/XXXX.docx");WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(wordFile);// 提取文本List<String> paragraphs = new ArrayList<>();List<Object> bodyContent = wordMLPackage.getMainDocumentPart().getContent();for (Object content : bodyContent) {if (content instanceof P) { // 检查是否为段落P paragraph = (P) content;StringBuilder paragraphText = new StringBuilder();for (Object run : paragraph.getContent()) {if (run instanceof org.docx4j.wml.R) { // 检查是否为运行org.docx4j.wml.R runObj = (org.docx4j.wml.R) run;for (Object obj : runObj.getContent()) {if (obj instanceof javax.xml.bind.JAXBElement) {javax.xml.bind.JAXBElement<?> jaxbElement = (javax.xml.bind.JAXBElement<?>) obj;if (jaxbElement.getDeclaredType() == org.docx4j.wml.Text.class) {org.docx4j.wml.Text textObj = (org.docx4j.wml.Text) jaxbElement.getValue();paragraphText.append(textObj.getValue());}} else if (obj instanceof org.docx4j.wml.Text) {org.docx4j.wml.Text textObj = (org.docx4j.wml.Text) obj;paragraphText.append(textObj.getValue());}}}}String trimmedParagraph = paragraphText.toString().replaceAll("[\\p{Z}\\p{C}\\u00A0]+", "");if (!trimmedParagraph.isEmpty()) {paragraphs.add(trimmedParagraph);}}}String contentStr = String.join("\n", paragraphs);System.out.println("content: " + contentStr);// 文本分段// List<String> sentences = segmentText(content);// 向量化// List<float[]> vectors = sentences.stream().map(TextToMilvus::getVector).collect(Collectors.toList());} catch (Exception e) {e.printStackTrace();}

这篇关于docx4j 的使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1033820

相关文章

Rust 智能指针的使用详解

《Rust智能指针的使用详解》Rust智能指针是内存管理核心工具,本文就来详细的介绍一下Rust智能指针(Box、Rc、RefCell、Arc、Mutex、RwLock、Weak)的原理与使用场景,... 目录一、www.chinasem.cnRust 智能指针详解1、Box<T>:堆内存分配2、Rc<T>:

Java Docx4j类库简介及使用示例详解

《JavaDocx4j类库简介及使用示例详解》Docx4j是一个强大而灵活的Java库,非常适合需要自动化生成、处理、转换MicrosoftOffice文档的服务器端或后端应用,本文给大家介绍Jav... 目录1.简介2.安装与依赖3.基础用法示例3.1 创建一个新 DOCX 并添加内容3.2 读取一个已存

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

python pymodbus模块的具体使用

《pythonpymodbus模块的具体使用》pymodbus是一个Python实现的Modbus协议库,支持TCP和RTU通信模式,支持读写线圈、离散输入、保持寄存器等数据类型,具有一定的参考价值... 目录一、详解1、 基础概念2、核心功能3、安装与设置4、使用示例5、 高级特性6、注意事项二、代码示例

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳

Java 日志中 Marker 的使用示例详解

《Java日志中Marker的使用示例详解》Marker是SLF4J(以及Logback、Log4j2)提供的一个接口,它本质上是一个命名对象,你可以把它想象成一个可以附加到日志语句上的标签或戳... 目录什么是Marker?为什么使用Markejavascriptr?1. 精细化的过滤2. 触发特定操作3

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

使用Go调用第三方API的方法详解

《使用Go调用第三方API的方法详解》在现代应用开发中,调用第三方API是非常常见的场景,比如获取天气预报、翻译文本、发送短信等,Go作为一门高效并发的编程语言,拥有强大的标准库和丰富的第三方库,可以... 目录引言一、准备工作二、案例1:调用天气查询 API1. 注册并获取 API Key2. 代码实现3

MySQL8.0临时表空间的使用及解读

《MySQL8.0临时表空间的使用及解读》MySQL8.0+引入会话级(temp_N.ibt)和全局(ibtmp1)InnoDB临时表空间,用于存储临时数据及事务日志,自动创建与回收,重启释放,管理高... 目录一、核心概念:为什么需要“临时表空间”?二、InnoDB 临时表空间的两种类型1. 会话级临时表

MySQL之复合查询使用及说明

《MySQL之复合查询使用及说明》文章讲解了SQL复合查询中emp、dept、salgrade三张表的使用,涵盖多表连接、自连接、子查询(单行/多行/多列)及合并查询(UNION/UNIONALL)等... 目录复合查询基本查询回顾多表查询笛卡尔积自连接子查询单行子查询多行子查询多列子查询在from子句中使