Python 实现给 pdf 文件自动识别标题并增添大纲

2024-01-03 15:04

本文主要是介绍Python 实现给 pdf 文件自动识别标题并增添大纲,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、背景:

客户方提供过来一个开放平台的pdf文档,文档里有几十个接口,没有大纲和目录可以定位到具体内容,了解整体的API功能,观看体验极度差劲,所以想使用Python代码自动解析pdf文档,给文档增添大纲内容,便于观看和理解。

二、实现思路:

1、可行性调研
  • pdf文档是文本格式的,而非扫描图像,所以可以拿到具体的文本内容。
  • 内容格式整体比较整齐,标题有特定的格式可以识别。
2、技术细节
  • 使用pyPDF2和pdfplumber类库来实现pdf的解析。
  • 根据章节标题的格式,编写正则表达式进行匹配
  • 记录识别结果到csv文件中,方便比对和删除多余的标题内容。
  • 使用pyPDF2来添加书签,生成新的PDF大纲。

三、代码

1、详细python代码
import csvimport pdfplumber
import re
from PyPDF2 import PdfReader, PdfWriter# TODO PDF文件路径
pdf_path = 'C:\\Users\\admin\\Desktop\\use_book.pdf'  # 更改为您的PDF文件路径
output_pdf_path = '.\output_use_book_with_bookmarks.pdf'  # 输出文件的路径
# 保存目录信息的CSV文件路径
csv_path = 'titles.csv'# 检测是否为标题的函数
# 现在只匹配包含至少两个点的数字序列
def is_title(line):# TODO 正则表达式匹配类似 "3.8.1.2.3 业务接口" 的格式# 确保后面紧跟着的是文字而不是数字或符号pattern = r'^\d+(\.\d+)+\s+[^\d\W]+.*'return re.match(pattern, line) is not None# 提取标题的函数
def extract_titles(pdf_path):titles = []with pdfplumber.open(pdf_path) as pdf:for page_number, page in enumerate(pdf.pages):text = page.extract_text()if text:for line in text.split('\n'):if is_title(line):titles.append((line.strip(), page_number))  # PDF页码从0开始return titles# 将标题保存到CSV文件
def save_titles_to_csv(titles, csv_path):with open(csv_path, 'w', newline='', encoding='utf-8') as file:writer = csv.writer(file)writer.writerow(['Title', 'Page Number'])for title in titles:writer.writerow(title)# 从CSV文件读取标题
def read_titles_from_csv(csv_path):titles = []with open(csv_path, 'r', encoding='utf-8') as file:reader = csv.reader(file)next(reader)  # 跳过标题行for row in reader:titles.append((row[0], int(row[1]) - 1))  # 将页码转换为从0开始的索引return titles# 检查是否已经有保存的目录信息
try:titles = read_titles_from_csv(csv_path)
except FileNotFoundError:# 如果没有找到文件,则提取并保存目录信息titles = extract_titles(pdf_path)save_titles_to_csv(titles, csv_path)# 打印目录信息
for title in titles:print(f"Title: {title[0]}, Page: {title[1]}")# 添加大纲的函数
def add_bookmarks_to_pdf(input_pdf_path, output_pdf_path, titles):reader = PdfReader(input_pdf_path)writer = PdfWriter()for page in reader.pages:writer.add_page(page)for title, page_number in titles:writer.add_outline_item(title, page_number)with open(output_pdf_path, 'wb') as output_file:writer.write(output_file)if __name__ == '__main__':# 调用函数titles = read_titles_from_csv(csv_path)add_bookmarks_to_pdf(pdf_path, output_pdf_path, titles)
2、涉及依赖版本库
python = 3.10 (anaconda3)
pdfplumber = 0.10.3
PyPDF2 = 3.0.1
3、运行效果
  • csv 文件示例 ( title.csv )
Title,Page Number  
2.1 运行硬件环境,5  
2.2 运行软件环境,5  
3.1 门户应用,6  
3.1.1 门户配置,6  
3.1.2 常用应用,6  
3.1.3 快捷导航,7  
3.1.4 下载,9  
3.1.4.1 插件助手,9  
3.1.4.2 客户端,10  
3.1.4.3 插件,10  
3.1.5 用户登录管理,10
  • pdf 示例
    在这里插入图片描述

四、补充

理论上如果标题格式有层级关系,是可以在添加书签的时候,调整每个书签的层级,达到更好的阅读体验。

# 解析标题层级的函数
def parse_title_level(title):# 假设标题格式为 "1.1.1 标题"level = title.count('.')  # 层级由点的数量决定return level# 添加大纲的函数 (修改版)
def add_bookmarks_to_pdf(input_pdf_path, output_pdf_path, titles):reader = PdfReader(input_pdf_path)writer = PdfWriter()for page in reader.pages:writer.add_page(page)bookmarks = [None] * 10  # 重点在这段,假设最大层级为10 for title, page_number, level in titles:parent = bookmarks[level-1] if level > 0 else None  # 确定父书签bookmark = writer.add_outline_item(title, page_number, parent)bookmarks[level] = bookmark  # 更新当前层级的书签with open(output_pdf_path, 'wb') as output_file:writer.write(output_file)

以上代码未进行调试,仅做参考 (* ^ ▽ ^ *) 。

这篇关于Python 实现给 pdf 文件自动识别标题并增添大纲的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/566089

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

基于Python打造一个智能单词管理神器

《基于Python打造一个智能单词管理神器》这篇文章主要为大家详细介绍了如何使用Python打造一个智能单词管理神器,从查询到导出的一站式解决,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 项目概述:为什么需要这个工具2. 环境搭建与快速入门2.1 环境要求2.2 首次运行配置3. 核心功能使用指

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

利用Python打造一个Excel记账模板

《利用Python打造一个Excel记账模板》这篇文章主要为大家详细介绍了如何使用Python打造一个超实用的Excel记账模板,可以帮助大家高效管理财务,迈向财富自由之路,感兴趣的小伙伴快跟随小编一... 目录设置预算百分比超支标红预警记账模板功能介绍基础记账预算管理可视化分析摸鱼时间理财法碎片时间利用财

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1