Java+AI驱动实现PDF文件数据提取与解析

本文主要是介绍Java+AI驱动实现PDF文件数据提取与解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下...

体检结束后，面对报告中繁多的指标和专业术语，许多人常会感到困惑：这些数据代表什么含义？是否存在健康风险？需要采取哪些应对措施？人工解读不仅依赖专业知识，效率也相对低下。本文将分享一套基于 AI 的体检报告智能评估方案，详细介绍从 PDF 上传、内容提取到 AI 分析、数据存储的全流程自动化实现方法。

Java+AI驱动实现PDF文件数据提取与解析

一、核心流程：从上传到评估的完整链路

本系统的核心目标是：用户上传体检报告 PDF 后，系统自动解析内容，调用 AI 生成结构化评估结果，最终存储到数据库供前端展示。整体流程分为两大步骤：

上传体检报告：用户上传 PDF 文件 → 存储至阿里云 OSS → 提取 PDF 文本内容 → 临时缓存到 Redis → 向前端返回上传结果。
生成评估结果：用户确认解析 → 从 Redis 读取文本内容 → 调用 AI 大模型生成 jsON 格式评估结果 → 存储到数据库 → 完成智能评估。

技术栈选择：采用 Apache PDFBox 解析 PDF 文本，百度千帆大模型进行智能分析，Redis 用于临时缓存，mysql 存储最终结果，阿里云 OSS 存储原始文件。

Java+AI驱动实现PDF文件数据提取与解析

二、第一步：解析 PDF，提取体检报告内容

PDF 是体检报告常见的格式，但直接读取其中的文本存在一定难度。我们选择 Apache PDFBox 这一成熟的开源 PDF 处理库来提取文本内容。

1. 引入依赖

在项目的 common 模块中添加 PDFBox 依赖（以 Maven 为例）：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
</dependency>

2. 封装 PDF 工具类

为方便调用，封装PDFUtil工具类，其核心方法pdfToString接收文件输入流，返回提取的文本：

public class PDFUtil {
    public static String pdfToString(InputStream inputStream) {
        PDDocument document = null;
        try {
            // 加载PDF文档
            document = PDDocument.load(inputStream);
            // 创建文本提取器
            PDFTextStripper pdfStripper = new PDFTextStripper();
            // 提取文本并返回
            return pdfStripper.getText(document);
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            // 关闭资源
            if (document != null) {
                try {
                    document.close();
                    inputStream.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return null;
    }
}

3. 测试验证

找一份体检报告 PDF，编写简单的测试类验证文本提取功能：

public class PDFUtilTest {
    public static void main(String[] args) throws FileNotFoundException {
        FileInputStream fileInputStream = new FileInputStream("C:\tmp\体检报告-刘爱国-男-69岁.pdf");
        String result = PDFUtil.pdfToString(fileInputStream);
        System.out.println(result); // 打印提取的文本内容
    }
}

若控制台能输出 PDF 中的文字，则表明解析成功。

三、第二步：集成百度千帆大模型，让 AI 做专业解读

提取文本后，需借助 AI 基于内容生成结构化评估。我们选择百度千帆大模型（ERNIE-4.0-8K-Preview），它在医疗领域的理解能力较强，且支持 JSON 格式输出，便于后续解析。

1. 准备工作：注册与认证

注册百度智能云账号，完成个人实名认证（需在手机端 APP 操作）。

创建 AccessKey：在控制台的 “安全认证” 中生成，用于 API 调用时的身份验证。

注意：新用户有 20 元代金券，足够测试使用；调用前需确保已开通目标模型的付费权限。

2. 引入 SDK 依赖

在 common 模块中添加百度千帆 SDK：

<dependency>
    <groupId>com.baidubce</groupId>
    <artifactId>qianfan</artifactId>
    <version>0.1.6</version>
</dependency>

3. 封装 AI 调用工具

为便于复用，封装AIModelInvoker类，统一处理大模型调用逻辑：

@Component
@Slf4j
public class AIModelInvoker {
    @Autowired
    private BaiduAIProperties baiduAIProperties; // 配置类，读取accessKey等参数
    public String qianfanInvoker(String prompt) {
        // 初始化千帆客户端
        Qianfan qianfan = new Qianfan(baiduAIProperties.getAccessKey(), baiduAIProperties.getSecretKey());
        // 调用模型
        ChatResponse response = qianfan.chatCompletion()
                .model(baiduAIProperties.getQianfanModel()) // 模型名称，如ERNIE-4.0-8K-Preview
                .addMessage("user", prompt) // 传入提示词
                .temperature(0.7) // 控制输出随机性（0-1之间，值越小越稳定）
                .maxOutputTokens(2000) // 最大输出长度
                .responseFormat("json_object") // 指定返回JSON格式
                .execute();
        return response.getResult(); // 返回AI生成的结果
    }
}

其中BaiduAIProperties用于读取配置文件中的参数（accessKey、secretKey、模型名等），避免硬编码：

@Data
@Configuration
@ConfigurationProperties(prefix = "baidu")
public class BaiduAIProperties {
    private String accessKey;
    private String secretKey;
    private String qianfanModel;
}

在application.yml中配置参数：

baidu:
  accessKey: 你的accessKey
  secretKey: 你的secretKey
  qianfanModel: ERNIE-4.0-8K-Preview

4. 关键：设计提示词（Prompt）

要让 AI 生成符合要求的结构化结果，提示词的设计至关重要。一个优质的提示词需明确：AI 的角色、任务要求、输入内容、输出格式。

针对体检报告解析，设计的提示词如下（核心部分）：

请以专业医生的视角分析以下体检报告，完成以下任务：
1. 提取总检日期；
2. 给出风险等级（健康/提示/风险/危险/严重危险）和健康指数（0-100分）；
3. 计算各风险等级的占比（保留两位小数）；
4. 列出异常数据（结论、项目名、结果、参考值、单位、解读、建议）；
5. 给8大系统（呼吸、消化等）打分（0-100分）；
6. 总结报告核心结论。

输出要求：仅返回JSON，格式如下：

{
  "totalCheckDate": "YYYY-MM-DD",
  "healthAssessment": {
    "riskLevel": "healthy/caution/risk/danger/severeDanger",
    "healthIndex": XX.XX
  },
  "riskDistribution": { ... },
  "abnormalDataandroid": [ ... ],
  "systemScore": { ... },
  "summarize": "总结内容"
}

提示词中明确了 AI 的 “医生” 角色，列出了具体任务，并严格规定了 JSON 格式，确保后续能直接解析。

四、API 接口开发：从上传到存储的完整实现

具备 PDF 解析和 AI 调用的基础后，开发实际的业务接口，实现 “上传报告→AI 评估→存储结果” 的全流程。

1. 数据库设计

首先创建health_assessment表，存储评估结果，核心字段包括：

老人基本信息（姓名、身份证号、年龄、性别等）；

体检信息（体检机构、报告 URL、总检日期等）；

AI 评估结果（健康指数、风险等级、异常数据、系统评分等，以 JSON 格式存储）。

2. 上传体检报告接口

用户上传 PDF 时，需将文件存储到阿里云 OSS，并提取文本缓存到 Redis（供后续 AI 调用）。

核心代码（Controller 层）：

@ApiOperation("健康文档上传")
@PostMapping("/upload")
pwww.chinasem.cnublic AJAXResult uploadFile(MultipartFile file, String idCardNo) throws Exception {
    try {
        // 上传到OSS，获取文件URL
        String url = aliyunOSSOperator.upload(file.getBytes(), file.getOriginalFilename());
        // 提取PDF文本
        String content = PDFUtil.pdfToString(file.getInputStream());
        // 缓存到Redis（key：idCardNo，便于后续关联）
        redisTemplate.opsForHash().put("healthReport", idCardNo, content);
        // 返回上传结果
        return AjaxResult.success().put("url", url).put("originalFilenjavascriptame", file.getOriginalFilename());
    } catch (Exception e) {
        return AjaxResult.error(e.getMessage());
    }
}

3. 生成评估结果接口

用户确认后，从 Redis 读取文本，调用 AI 生成结果，解析后存储到数据库。

核心代码（Service 层）：

@Override
public Long insertHealthAssessment(HealthAssessmentDto dto) {
    // 1. 从Redis获取PDF文本
    String content = (String) redisTemplate.opsForHash().get("healthReport", dto.getIdCard());
    if (StringUtils.isEmpty(content)) {
        throw new BaseException("请先上传体检报告");
    }
    // 2. 组装提示词（结合dto信息和PDF文本）
    String prompt = buildPrompt(content, dto);
    // 3. 调用AI生成评估结果
    String aiResult = China编程aIModelInvoker.qianfanInvoker(prompt);
    if (StringUtils.isEmpty(aiResult)) {
        throw new BaseException("AI分析失败");
    }
    // 4. 解析AI返回的JSON
    HealthReportVo reportVo = JSONUtil.toBean(aiResult, HealthReportVo.class);
    // 5. 保存到数据库
    HealthAssessment assessment = convertToEntity(reportVo, dto);
    save(assessment);
    return assessment.getId();
}

其中convertToEntity方法将 AI 生成的HealthReportVo转换为数据库实体HealthAssessmentandroid，并补充用户基本信息（如通过身份证号解析年龄、性别等）。