java解析PDF、WORD获取其中的表格以及文本内容

2024-04-28 19:04

本文主要是介绍java解析PDF、WORD获取其中的表格以及文本内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近期因工作需要需要解析PDF,需要把PDF中的文本和表格分离,最终要实现的目标是PDF中的文本内容放一块,表格内容放一块,以list的形式存储。解析PDF的技术有很多,经过多次尝试发现使用AdobeAcrobat可以实现表格和文本分离。

注意事项:

1、下载AdobeAcrobat进行安装
       链接:https://pan.baidu.com/s/1Ki2H4gxDaKj5z8Dli3amCg 
       提取码:ckfx

2、使用时如果有报jacob的错把jacob-1.18-M1-x64.dll、jacob-1.18-M1-x86.dll这两个文件放到Java>jdk1.8.0_271>bin目录下

3、引入依赖:

     <dependency><groupId>jacob</groupId><artifactId>jacob</artifactId><version>1.1.8</version></dependency> <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.17.2</version></dependency>

工具类如下(内附PDF的文件转换方法以及获取纯文本和纯表格的测试方法):

package com.ylx.test.util;import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.Callable;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;
import java.util.concurrent.TimeUnit;
import java.util.regex.Matcher;
import java.util.regex.Pattern;import org.apache.commons.lang.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.stereotype.Component;import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.ComThread;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;
/*** * 2024年4月18日下午3:53:36*/
@Component
public class PdfToHtmlAdobe {public static void main(String[] args) throws Exception {/*** 将PDF转成html* */String filepath = "E:\\工作\\";String htmlpath = "E:\\gongzuo\\zjk\\html_file\\";String filename = "cehi";Integer fileType = 1;//1.pdf,2wordString ext = ".pdf";filedata(filepath, filename,htmlpath,fileType,ext);/*** 获取纯文本* */String htmlFilePath = "E:\\gongzuo\\html_file\\ceshi.html";List<String> dlList = getDLList(htmlFilePath);for (int i = 0; i < dlList.size(); i++) {System.out.println("第"+i+"条:"+dlList.get(i));}/*** 获取所有表格* */List<String> bgList = getAllTable(htmlFilePath);for (int i = 0; i < bgList.size(); i++) {System.out.println("第"+i+"条:"+bgList .get(i));}}public static String getRemoveTableStr(String htmlFilePath) throws IOException {String content = new String(Files.readAllBytes(Paths.get(htmlFilePath)),"GBK");String specialStr = removeContentStyle(content);// 使用 Jsoup 解析 HTML 字符串Document doc = Jsoup.parse(specialStr);// 获取纯文本String plainText = doc.text();
//		System.out.println(plainText);return plainText;}/*** 获取所有的Table* @param htmlFilePath* @return* @throws IOException* 2024年4月19日下午3:36:39*/public static List<String> getAllTable(String htmlFilePath) throws IOException {List<String> bgList = new ArrayList<>();// 加载 HTML 文件File input = new File(htmlFilePath);try {// 解析 HTML 文件Document doc = Jsoup.parse(input, null);// 选择所有的表格元素Elements tables = doc.select("table");// 遍历每个表格元素for (Element table : tables) {// 获取当前表格中的所有行Elements rows = table.select("tr");//创建StringBuilder类的实例StringBuilder builder = new StringBuilder();// 遍历每行for (Element row : rows) {// 输出行内容
//                    System.out.println("行内容:");
//                    System.out.println(row.text());//将获取的text写入StringBuilder容器builder.append(row.text());builder.append("\r\n");}
//                System.out.println("-----------------------------------------------");
//                System.out.println(builder.toString());
//                System.out.println("-----------------------------------------------");bgList.add(builder.toString());}} catch (IOException e) {e.printStackTrace();}return bgList;}/*** 获取以10个逗号为一个段落的list* @param content* @return* 2024年4月19日下午2:04:17* @throws IOException */public static List<String> getDLList(String htmlFilePath) throws IOException {/*** 删除Table表格* */String content = getRemoveTableStr(htmlFilePath);
//		System.out.println(content);
//        String[] jhArr = content.split("。");
//        List<String> dlList = new ArrayList<String>();//10个句号为一个段落
//        String jhStrTen=new String();
//        int lastDl=0;
//        for (int i = 0; i < jhArr.length; i++) {
//        	if (i % 10 == 0 && i>0) {
//        		dlList.add(jhStrTen);
//        		if (jhArr.length-i>10) {
//        			jhStrTen="";
//				}
//        		if (jhArr.length-i<=10 && lastDl==0) {
//					lastDl = 1;
//					jhStrTen = "";
//				}
//			}else{
//				jhStrTen = jhStrTen +jhArr[i]+"。";
//				if ((i+1) == jhArr.length) {
//					dlList.add(jhStrTen);
//				}
//			}
//		}List<String> dlList = new ArrayList<>();int index = 0;while (index < content.length()) {int endIndex = index + 1; // 初始化结束索引for (int i = 0; i < 10; i++) {endIndex = content.indexOf("。", endIndex + 1); // 查找句号if (endIndex == -1) {break; // 如果没有找到句号,跳出循环}}if (endIndex == -1) {endIndex = content.length(); // 如果不满十个句号,结束索引为字符串长度}dlList.add(content.substring(index, endIndex)); // 将段落添加到列表中index = endIndex + 1; // 更新起始索引}return dlList;}/*** @param filepath  存放PDF的文件目录* @param filename  不带后缀名的PDF文件* @throws Exception* 2024年4月18日下午3:31:55*/public static void filedata(String fileDir, String filename,String htmlPath,Integer fileType,String ext) throws Exception{final ExecutorService exec = Executors.newFixedThreadPool(1);  Callable<String> call = new Callable<String>() {  public String call() throws Exception {  //开始执行耗时操作  if (fileType==1) {//文件路径不存在则进行创建FileUtils.createPath(htmlPath);if (!FileUtils.isFileExists(htmlPath + filename + ".docx")) {PDFtoWord(fileDir + filename + ".PDF", htmlPath + filename + ".docx");}if (!FileUtils.isFileExists(htmlPath + filename + ".html")) {wordToHtml(htmlPath + filename + ".docx", htmlPath + filename + ".html");}}if (fileType==2){//文件路径不存在则进行创建FileUtils.createPath(htmlPath);if (!FileUtils.isFileExists(htmlPath + filename + ".html")) {wordToHtml(fileDir + filename + ext, htmlPath + filename + ".html");}}return "线程执行完成.";}  };  try {Future<String> future = exec.submit(call);String obj = future.get(1000 * 600, TimeUnit.MILLISECONDS); //任务处理超时时间设为 1 秒  System.out.println("文件转换:" + obj);} catch (Exception e) {//关闭AcrobatString command = "taskkill /f /im Acrobat.exe";  Runtime.getRuntime().exec(command);throw e;} finally {// 关闭线程池  exec.shutdown(); }}public static boolean wordToHtml(String inPath, String toPath) {ComThread.InitSTA();//初始化com的线程// 启动wordActiveXComponent axc = new ActiveXComponent("Word.Application");boolean flag = false;try {// 设置word不可见axc.setProperty("Visible", new Variant(false));Dispatch docs = axc.getProperty("Documents").toDispatch();// 打开word文档Dispatch doc = Dispatch.invoke(docs,"Open",Dispatch.Method,new Object[] { inPath, new Variant(false), new Variant(true) },new int[1]).toDispatch();// 作为html格式保存到临时文件Dispatch.invoke(doc, "SaveAs", Dispatch.Method, new Object[] {toPath, new Variant(8) }, new int[1]);Variant f = new Variant(false);Dispatch.call(doc, "Close", f);axc.invoke("Quit", new Variant[] {});flag = true;return flag;} catch (Exception e) {e.printStackTrace();return flag;} finally {ComThread.Release();//关闭com的线程   真正kill进程}}public static boolean PDFtoWord(String source, String target) {ComThread.InitSTA();//初始化com的线程// pdfActiveX PDDoc对象 主要建立PDF对象ActiveXComponent app = null ;try {File inPath = new File(source);File outPath = new File(target);app = new ActiveXComponent("AcroExch.PDDoc");// PDF控制对象Dispatch pdfObject = app.getObject();long start = System.currentTimeMillis();// 打开PDF文件,建立PDF操作的开始Dispatch.call(pdfObject, "Open", new Variant(inPath.getAbsolutePath()));Variant jsObj = Dispatch.call(pdfObject, "GetJSObject");Dispatch.call(jsObj.getDispatch(), "SaveAs", outPath.getPath(), "com.adobe.acrobat.docx");app.invoke("Close");// 关闭PDFapp.invoke("Close", new Variant[] {});long end = System.currentTimeMillis();} catch (Exception e) {System.out.println(e.getMessage());} finally {ComThread.Release();//关闭com的线程   真正kill进程}return true;}public static String chineseDate(String chineseDate){String aa4 = chineseDate.substring(chineseDate.indexOf("年")-2, chineseDate.indexOf("年"));String aa1 = chineseDate.substring(chineseDate.indexOf("年"),chineseDate.indexOf("月")+1);String aa2 = chineseDate.substring(chineseDate.indexOf("月")+1,chineseDate.indexOf("日"));String aa3 = chineseDate.substring(chineseDate.indexOf("日"));aa1 = aa1.replaceAll("十二", "12");aa1 = aa1.replaceAll("十一", "11");aa1 = aa1.replaceAll("十", "10");aa1 = aa1.replaceAll("一", "1");aa1 = aa1.replaceAll("二", "2");aa1 = aa1.replaceAll("三", "3");aa1 = aa1.replaceAll("四", "4");aa1 = aa1.replaceAll("五", "5");aa1 = aa1.replaceAll("六", "6");aa1 = aa1.replaceAll("七", "7");aa1 = aa1.replaceAll("八", "8");aa1 = aa1.replaceAll("九", "9");aa1 = aa1.replaceAll("零", "0");aa1 = aa1.replaceAll("〇", "0");aa1 = aa1.replaceAll("○", "0");aa1 = aa1.replaceAll("O", "0");aa1 = aa1.replaceAll("", "0");aa4 = aa4.replaceAll("十二", "12");aa4 = aa4.replaceAll("十一", "11");aa4 = aa4.replaceAll("十", "10");aa4 = aa4.replaceAll("一", "1");aa4 = aa4.replaceAll("二", "2");aa4 = aa4.replaceAll("三", "3");aa4 = aa4.replaceAll("四", "4");aa4 = aa4.replaceAll("五", "5");aa4 = aa4.replaceAll("六", "6");aa4 = aa4.replaceAll("七", "7");aa4 = aa4.replaceAll("八", "8");aa4 = aa4.replaceAll("九", "9");aa4 = aa4.replaceAll("零", "0");aa4 = aa4.replaceAll("〇", "0");aa4 = aa4.replaceAll("○", "0");aa4 = aa4.replaceAll("O", "0");aa4 = aa4.replaceAll("", "0");return 20+aa4+aa1+chineseNumber(aa2)+aa3;}/*** 中文數字转阿拉伯数组【十万九千零六十  --> 109060】* @param chineseNumber* @return*/private static String chineseNumber(String chineseNumber){int result = 0;int temp = 1;//存放一个单位的数字如:十万int count = 0;//判断是否有chArrchar[] cnArr = new char[]{'一','二','三','四','五','六','七','八','九'};char[] chArr = new char[]{'十','百','千','万','亿'};for (int i = 0; i < chineseNumber.length(); i++) {boolean b = true;//判断是否是chArrchar c = chineseNumber.charAt(i);for (int j = 0; j < cnArr.length; j++) {//非单位,即数字if (c == cnArr[j]) {if(0 != count){//添加下一个单位之前,先把上一个单位值添加到结果中result += temp;temp = 1;count = 0;}// 下标+1,就是对应的值temp = j + 1;b = false;break;}}if(b){//单位{'十','百','千','万','亿'}for (int j = 0; j < chArr.length; j++) {if (c == chArr[j]) {switch (j) {case 0:temp *= 10;break;case 1:temp *= 100;break;case 2:temp *= 1000;break;case 3:temp *= 10000;break;case 4:temp *= 100000000;break;default:break;}count++;}}}if (i == chineseNumber.length() - 1) {//遍历到最后一个字符result += temp;}}return String.valueOf(result);}/***  读取本地html文件里的html代码* @return*/public static String toHtmlString(File file) {// 获取HTML文件流StringBuffer htmlSb = new StringBuffer();try {BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(file), "GBK"));while (br.ready()) {htmlSb.append(br.readLine());}br.close();// 删除临时文件//file.delete();} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}// HTML文件字符串String htmlStr = htmlSb.toString();// 返回经过清洁的html文本return htmlStr;}/*** 符合以特定字符串开头 ,以特定字符串结尾的所有结果*/public static String getSpecialStr(String line, String pattern) {// 创建 Pattern 对象Pattern r = Pattern.compile(pattern);// 创建 matcher 对象Matcher m = r.matcher(line);String str = "";if (m.find()) {str = m.group(2);}if (StringUtils.isEmpty(str)) {return str;} else {return str.substring(0, str.length() - 1);}}/*** 清除文件中的table** @param content*            公告内容* @return 字符串结果集*/public static String removeContentStyle(String content) {String regEx = "<table(.*?)</table>";Pattern p = Pattern.compile(regEx);Matcher m = p.matcher(content);if (m.find()) {content = m.replaceAll("");}
//            String regEx2 = " style=\"([\\s\\S]*?)\"";
//            Pattern p2 = Pattern.compile(regEx2);
//            Matcher m2 = p2.matcher(content);
//            if (m2.find()) {
//                    content = m2.replaceAll("");
//            }
//            String regEx3 = " border=\"(.*?)\"";
//            Pattern p3 = Pattern.compile(regEx3);
//            Matcher m3 = p3.matcher(content);
//            if (m3.find()) {
//                    content = m3.replaceAll(" border=\"1\" ");
//            }
//
//            String regEx4 = " class=.*?\\>";
//            Pattern p4 = Pattern.compile(regEx4);
//            Matcher m4 = p4.matcher(content);
//            if (m4.find()) {
//                    content = m4.replaceAll("\\>");
//            }
//            String regEx5 = "\\<!--(.*?)--\\>";
//            Pattern p5 = Pattern.compile(regEx5);
//            Matcher m5 = p5.matcher(content);
//            if (m5.find()) {
//                    content = m5.replaceAll("");
//            }
//            String regEx6 = "\\<o:p(.*?)/o:p\\>";
//            Pattern p6 = Pattern.compile(regEx6);
//            Matcher m6 = p6.matcher(content);
//            if (m6.find()) {
//                    content = m6.replaceAll("");
//            }
//            String regEx7 = "\\<!(.*?)\\>";
//            Pattern p7 = Pattern.compile(regEx7);
//            Matcher m7 = p7.matcher(content);
//            if (m7.find()) {
//                    content = m7.replaceAll("");
//            }
//            String regEx8 = "\\<font(.*?)\\>";
//            Pattern p8 = Pattern.compile(regEx8);
//            Matcher m8 = p8.matcher(content);
//            if (m8.find()) {
//                    content = m8.replaceAll("");
//            }return content;}}

这篇关于java解析PDF、WORD获取其中的表格以及文本内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944011

相关文章

java AOP环绕切面记录操作日志

一.创建数据库日志表 CREATE TABLE `uc_system_log` (`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键ID',`user_code` varchar(64) DEFAULT NULL COMMENT '用户编码',`user_name` varchar(128) DEFAULT NULL COMMENT '用户名称

C语言中的控制语句:深入解析与案例实践3

11. 动态内存管理         在C语言中,我们可以使用动态内存管理函数来在运行时分配和释放内存。这为我们提供了更大的灵活性,特别是在处理大小可变的数据时。 #include <stdio.h>#include <stdlib.h>int main() {int n, *p, i;printf("Enter the number of elements: ");scanf("%d",

基于Springboot汽车租赁预约管理系统

一:功能介绍 本系统是Springboot项目采用的技术栈主要有Spring、mybaits、springboot、mysql数据库 功能角色主要分为管理员、超级管理员、用户等几个角色 二:功能截图 三:源码获取

你不知道的Java的split的小问题

[size=medium] 有时候,我们的一些业务数据,有些定义的是按某个分割符分割数据,然后一行一行的,处理这种数据时候,要务必小心,因为它简单,不用维护类似json格式的数据或者一个对象,而是直接通过下标位置来访问数据的,相信这种场景大家也都接触过,当然弊端也是显而易见的,如果位置放错或者代码使用不当,都会造成一些问题,所以使用这种方式时,一会都会约定一些内容,比如行分隔符,列分割符等,下面

jdk安装多个版本,但是java -version显示最早安装的版本,换掉Path或者JAVA_HOME不生效问题

问题一:当你的电脑上又多个jdk版本,如17 或者8时,使用命令行 java -version显示最早安装的,如下图所示:环境变量配置的17,但是命令行显示的是8。 原因:windows电脑装jdk17后 会在你的环境变量当中的path开头 自动加上了 C:\ProgramData\Oracle\Java\javapath; 这样一个配置。 导致你后续如果安装jdk17然后重新配置了JAVA

国标GB28181协议EasyCVR视频汇聚平台获取设备录像仅展示部分片段的原因排查

国标GB28181协议EasyCVR安防平台可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云存储等丰富的视频能力,平台支持7*24小时实时高清视频监控,能同时播放多路监控视频流,视频画面1、4、9、16个可选,支持自定义视频轮播。此外,高清可视化视频监控平台EasyCVR还具备权限/用户/角色管理、设备分级分组管理、鉴权管理、服

Java垃圾收集器之G1介绍(一)

先来看下Oracle HotSpot JVM的体系结构:    JVM主要组件包括,类加载器,运行时内存区,以及执行引擎,程序员主要关注的应该是运行时区域这块了,  回顾下类加载器的顺序:  ->Boostrap ClassLoad   引导类,加载java规范定义和接口声明主要是/jre/lib/rt.jar  ->  Ext ClassLoad  加载

浅谈Java项目打包方式

大家都知道在Java里面开发一个web服务非常繁琐,首先需要各种框架,各种配置,完事之后,需要打成一个war包,最后需要一个servlet容器,Tomcat或者Jetty,Jboss,来运行发布,同样的事情,你会发现在其他的语言中,是非常简单的,比如python里面的Django或者tornado,ruby里面的rails等,随着近年来微服务越来越流行,一个简单,强大,灵活,易

如何在IDE中体验一把Java8?

Java8已经发布有一段时间了,其中包括了许多新的不错的特性,例如支持scala风格的lambda函数式编程,流式API操作等,  让够让你臃肿的JAVA代码,变得大幅精简,而且语义更加清晰明了,本篇主要叙述如何在在Eclipse和IDEA中配置支持JAVA8,  只有让我们的IDE支持Java8运行,我们才能在它的基础上,体验Java8带来的快感!  NetBeans和Intellj IDE

Java时间处理神器之Joda-Time

以前总觉得在Java里面处理各种日期转换很麻烦,虽然我也封装过一些工具包,但是总体感觉还是不够完美,也使用过一些开源的apachecommons里面的时间处理工具类感觉还是不够灵活和强大。 第一次与Joda-Time有一面之缘的时候,是在我使用ELK框架给公司做日志收集分析检索系统的时候,我发现使用jruby重写的logstash里面使用的时间处理工具类是joda-time,当时就对这个框架