基于MinerU的PDF解析API

2024-09-08 09:36

文章标签 解析 api pdf mineru

本文主要是介绍基于MinerU的PDF解析API，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

- MinerU的GPU镜像构建
- 基于FastAPI的PDF解析接口

支持一键启动，已经打包到镜像中，自带模型权重，支持GPU推理加速，GPU速度相比CPU每页解析要快几十倍不等

请见PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md
PDF文档中包含大量知识信息，然而提取高质量的PDF内容并非易事。为此，我们将PDF内容提取工作进行拆解：

阿里云地址：docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru:0.2-models

dockerhub地址：docker pull quincyqiang/mineru:0.2-models

docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models

具体截图请见博客：https://blog.csdn.net/yanqianglifei/article/details/141979684

访问地址：

http://localhost:8888/docshttp://127.0.01:8888/docs

返回内容字段包括:dict_keys([‘layout’, ‘info’, ‘content’])
其中content是一个字典列表：

{'type': 'text', 'text': '现在我们知道：价值实体就是劳动；劳动量的尺度就是劳动持续时间。', 'page_idx': 5
}

这篇关于基于MinerU的PDF解析API的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！