TextIn ParseX:助力开发者解析版面元素信息

2024-09-06 06:04

本文主要是介绍TextIn ParseX:助力开发者解析版面元素信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。

产品特点

  • 支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。

  • 支持多种语言:支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共 50+ 种语言。

  • 表格识别效果好:能准确识别各种格式的表格,包括有线表格、无线表格、密集表格,并支持各种类型的合并单元格识别与还原。

  • 阅读顺序还原准:能理解和还原文档的结构和元素排列,确保阅读顺序的准确性,支持多栏布局的论文、年报、业务报告等内容。

  • 自研文档树引擎:从语义出发,提取段落embedding值,预测标题层级关系,通过构造文档树提高检索召回效果。

为了让用户获得文档解析引擎返回的丰富版面元素,我们开发了一系列的sdk函数,包括目录树、公式、表格、图片、全文markdown等结果的获取函数。对于api用户来说,评估文档解析引擎的版面分析结果准确性是困难的,可视化的前端界面可以一定程度解决定性评估的问题,另外一些场景中,用户希望能够可视化文件解析的结果,并对结果进行编辑修正,获得更高精度的解析结果,这个时候前端可视化组件就是必不可少的了。为了满足这些需求,方便用户,我们将textin.com上面的前端可视化组件进行了开源,请用户批评指正。

1、SDK功能介绍

TextIn ParseX是一套标准的多平台支持的python sdk,帮助开发者解析pdf_to_markdownRestful API返回结果,获取对应的版面元素的数据结构。开发者只需在终端安装对应的依赖就可以使用。

为了方便用户获取版面元素,此次更新,调用接口增加了'page_details'参数,返回的json结果里面新增加了'pages'的字段。

pip install TextInParseX

如果报错timeout,可以尝试国内源:

pip3 install TextInParseX -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

首先,你要在textin开通文档解析服务,然后可以在试用工作台点击用户图标,再点击账号与开发者信息(或者登陆后从textin首页->账户与充值->账号与开发者信息,或者点击https://www.textin.com/console/dashboard/setting中获得api_id和secret_code。

你可以通过ParseX直接调用url获取解析对象。

import TextInParseX as px# 初始化解析器
app_id = "#############################"     #填入你的textin的api_id和secret——code
secret_code = "#############################"parseX_client = px.ParseXClient(app_id, secret_code)pdf_file_path = "example.pdf" #你的本地文件路径#通过ParseX直接调用url获取解析对象
result = parseX_client.begin_analyze_document_from_url(pdf_file_path)

也可以参考textin.com的restful api调用,通过python,curl,或者postman工具获得api的原始json文件,再通过ParseX解析json文件获得解析对象。

import TextInParseX as px
import jsonjson_file = 'test_json/example.json'
with open(json_file, 'r') as fr:json_result = json.load(fr)parseX_client = px.ParseXClient()
result = parseX_client.begin_analyze_document_from_json(json_result)#或者直接输入json文件
result = parseX_client.begin_analyze_document_from_file(json_file)

如果你想要获得全文级别的结果,例如文档的markdown信息,所有文本、表格、段落、图片信息,可以如下处理:

print('Markdown:')
print(result.all_markdown)
print("\n")print("All text in document:")
#为可视化方便, 输出0-1000个字符
parseX_client.print_all_elements(result.all_text, 0, 1000)
print("\n")
print(f"Total tables in document: {len(result.all_tables)}")
for index, table in enumerate(result.all_tables):print(f"Table {index}:")parseX_client.print_all_elements(table)print("\n")print(f"Total paragraphs in document: {len(result.all_paragraphs)}")
for p_idx, each_paragraph in enumerate(result.all_paragraphs):print(f"\n--- Paragraph {p_idx}/{len(result.all_paragraphs)} ---")print(f"Paragraph position: {each_paragraph.pos}")for l_idx, each_line in enumerate(each_paragraph.lines):print(f"  Line {l_idx}/{len(each_paragraph.lines)}")print(f"    Line positions: {each_line.pos}")print(f"  Line text: {each_line.text}")print(f"Total images in document: {len(result.all_images)}")
for index, image in enumerate(result.all_images):print(f"Image {index}:")parseX_client.print_all_elements(image)print("\n")all_images_cv_mat = result.get_all_images_cv_mat()
print(f"Total images (as cv::Mat) in document: {len(all_images_cv_mat)}")
for idx, mat in enumerate(all_images_cv_mat):print(f"Image {idx} (cv::Mat) shape: {mat.shape}")

分别获取每页的表格信息、图片信息,段落纯文本信息,段落坐标,每行的信息:

#页的索引指向pdf和文档的页,按照页数的规则,从1开始; table等版面元素的索引默认程序读取的规则,从0开始
for page in result.pages:print(f"=== Page {page.page_id} ===")print("\n")for index, table in enumerate(page.tables):print(f"Table {index}:")parseX_client.print_all_elements(table)print("\n")for index, image in enumerate(page.images):print(f"Image {index}:")parseX_client.print_all_elements(image) print("\n")images_cv_mat = page.get_images_cv_mat()print(f"Total images (as cv::Mat) in page {page.page_id}: {len(images_cv_mat)}")for idx, mat in enumerate(images_cv_mat):print(f"Image {idx} (cv::Mat) shape: {mat.shape}")print("\n")print("Text:")# 限定只能打印前1000个字符parseX_client.print_all_elements(page.paragraph_text, 0, 1000)  print("\n")# 获取当前页的段落print(f"Total paragraphs: {len(page.paragraphs)}")for p_idx, each_paragraph in enumerate(page.paragraphs):print(f"\n--- Paragraph {p_idx}/{len(page.paragraphs)} ---")print(f"Paragraph position: {each_paragraph.pos}")for l_idx, each_line in enumerate(each_paragraph.lines):print(f"  Line {l_idx}/{len(each_paragraph.lines)}")print(f"    Line positions: {each_line.pos}")print(f"  Line text: {each_line.text}")print('Finished getting paragraphs')print("\n\n")

如果想获取每行的位置和文本,可以如下处理:

 
    # 获取当前页的段落print(f"Total paragraphs: {len(page.paragraphs)}")for p_idx, each_paragraph in enumerate(page.paragraphs):print(f"\n--- Paragraph {p_idx}/{len(page.paragraphs)} ---")print(f"Paragraph position: {each_paragraph.pos}")for l_idx, each_line in enumerate(each_paragraph.lines):print(f"  Line {l_idx}/{len(each_paragraph.lines)}")print(f"    Line positions: {each_line.pos}")print(f"  Line text: {each_line.text}")print('Finished getting paragraphs')print("\n\n")

2、前端组件功能介绍

在解析结果审核校对、效果测评等场景下,需要可视化展示文档解析后的结果。

在 TextIn.com 体验页上,我们提供丰富的可视化和交互功能,这部分前端组件现已开源!

项目用ES6开发,基于React框架。仓库地址:https://github.com/intsig-textin/parsex-frontend

目前前端组件已实现以下特性:

  1. 预览渲染主流图片格式和pdf文件,提供缩放和旋转功能

  2. markdown结果渲染,支持各级标题、图片、公式渲染展示

  3. 各类解析元素提取展示,支持查看表格、公式、图片,和原始 JSON 结果

  4. 解析元素文档位置溯源,原文画框标注各元素位置,可以点击画框跳转解析结果,也可以点击解析结果跳转原文画框

  5. 各级目录树还原展示,支持点击跳转相应章节

  6. 接口调用选项参数配置,支持配置不同参数组合,获取相应解析结果

  7. 复制和导出markdown文件

  8. 复制解析后的表格和图片,可以直接粘贴到Excel表格中

以上功能,都可以在 TextIn.com 上体验使用,地址: TextInTextInicon-default.png?t=N7T8https://www.textin.com/console/recognition/robot_markdown?service=pdf_to_markdown

后续我们将开放更多的sdk函数,例如让用户获取所有的手写元素,复选框元素,也欢迎各位用户朋友给我们提更多的类似需求。

在一些国家标准、专利、扫描书的场景,用户还需要将文件解析后的结果进行校对,为了满足这样的需求,后续我们会在前端组件里面导入编辑的功能,并增加电子档pdf格式的导出功能。

Copy以下链接,即刻使用:

SDK:https://github.com/intsig-textin/parsex-sdk

前端组件:https://github.com/intsig-textin/parsex-frontend

文档解析的测评工具:https://github.com/intsig-textin/markdown_tester

文本向量化模型:https://huggingface.co/aspire/acge_text_embedding

欢迎随时与我们技术团队小伙伴探讨你的场景需求!

这篇关于TextIn ParseX:助力开发者解析版面元素信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141204

相关文章

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法

《JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法》:本文主要介绍JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法,每种方法结合实例代码给大家介绍的非常... 目录引言:为什么"相等"判断如此重要?方法1:使用some()+includes()(适合小数组)方法2

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

深入解析C++ 中std::map内存管理

《深入解析C++中std::map内存管理》文章详解C++std::map内存管理,指出clear()仅删除元素可能不释放底层内存,建议用swap()与空map交换以彻底释放,针对指针类型需手动de... 目录1️、基本清空std::map2️、使用 swap 彻底释放内存3️、map 中存储指针类型的对象

Java Scanner类解析与实战教程

《JavaScanner类解析与实战教程》JavaScanner类(java.util包)是文本输入解析工具,支持基本类型和字符串读取,基于Readable接口与正则分隔符实现,适用于控制台、文件输... 目录一、核心设计与工作原理1.底层依赖2.解析机制A.核心逻辑基于分隔符(delimiter)和模式匹

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装