【Java】使用poi+pdfbox实现office文件提取内容

2024-05-02 15:48

本文主要是介绍【Java】使用poi+pdfbox实现office文件提取内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引入maven依赖

<!-- poi -->
<dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>3.16</version>
</dependency>
<dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>3.16</version>
</dependency>
<dependency><groupId>org.apache.poi</groupId><artifactId>poi-scratchpad</artifactId><version>3.16</version>
</dependency><!-- pdf -->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.4</version>
</dependency>

提取内容

private static String read(File file) {StringBuilder builder = new StringBuilder();String name = file.getName();boolean txt = name.endsWith(".txt");if (txt) {try (FileInputStream inputStream = new FileInputStream(file)) {int len;byte[] bytes = new byte[1024];while ((len = inputStream.read(bytes)) != -1) {builder.append(new String(bytes, 0, len));}inputStream.close();} catch (IOException e) {e.printStackTrace();}}POITextExtractor extractor = null;boolean word = name.endsWith(".doc") || name.endsWith(".docx");if (word) {try {extractor = new WordExtractor(new HWPFDocument(new FileInputStream(file)));} catch (Exception e) {try {extractor = new XWPFWordExtractor(new XWPFDocument(new FileInputStream(file)));} catch (Exception ignored) {}}}boolean excel = name.endsWith(".xls") || name.endsWith(".xlsx");if (excel) {try {extractor = new ExcelExtractor(new HSSFWorkbook(new POIFSFileSystem(file)));} catch (Exception e) {try {extractor = new XSSFExcelExtractor(new XSSFWorkbook(file));} catch (Exception ignored) {}}}boolean slide = name.endsWith(".ppt") || name.endsWith(".pptx");if (slide) {try {extractor = new PowerPointExtractor(new FileInputStream(file));} catch (Exception e) {try {extractor = new XSLFPowerPointExtractor(new XSLFSlideShow(OPCPackage.open(file)));} catch (Exception ignored) {}}}if (extractor != null) {builder.append(extractor.getText());try {extractor.close();} catch (IOException ignored) {}}boolean pdf = name.endsWith(".pdf");if (pdf) {try {PDDocument document = PDDocument.load(file);PDFTextStripper stripper = new PDFTextStripper();builder.append(stripper.getText(document));document.close();} catch (IOException e) {e.printStackTrace();}}return builder.toString();
}

 

这篇关于【Java】使用poi+pdfbox实现office文件提取内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/954608

相关文章

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

SpringBoot日志级别与日志分组详解

《SpringBoot日志级别与日志分组详解》文章介绍了日志级别(ALL至OFF)及其作用,说明SpringBoot默认日志级别为INFO,可通过application.properties调整全局或... 目录日志级别1、级别内容2、调整日志级别调整默认日志级别调整指定类的日志级别项目开发过程中,利用日志

Java中的抽象类与abstract 关键字使用详解

《Java中的抽象类与abstract关键字使用详解》:本文主要介绍Java中的抽象类与abstract关键字使用详解,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、抽象类的概念二、使用 abstract2.1 修饰类 => 抽象类2.2 修饰方法 => 抽象方法,没有

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

MyBatis ParameterHandler的具体使用

《MyBatisParameterHandler的具体使用》本文主要介绍了MyBatisParameterHandler的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录一、概述二、源码1 关键属性2.setParameters3.TypeHandler1.TypeHa

Spring 中的切面与事务结合使用完整示例

《Spring中的切面与事务结合使用完整示例》本文给大家介绍Spring中的切面与事务结合使用完整示例,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录 一、前置知识:Spring AOP 与 事务的关系 事务本质上就是一个“切面”二、核心组件三、完

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

Java实现远程执行Shell指令

《Java实现远程执行Shell指令》文章介绍使用JSch在SpringBoot项目中实现远程Shell操作,涵盖环境配置、依赖引入及工具类编写,详解分号和双与号执行多指令的区别... 目录软硬件环境说明编写执行Shell指令的工具类总结jsch(Java Secure Channel)是SSH2的一个纯J

使用Python实现Word文档的自动化对比方案

《使用Python实现Word文档的自动化对比方案》我们经常需要比较两个Word文档的版本差异,无论是合同修订、论文修改还是代码文档更新,人工比对不仅效率低下,还容易遗漏关键改动,下面通过一个实际案例... 目录引言一、使用python-docx库解析文档结构二、使用difflib进行差异比对三、高级对比方