Python知识点：使用Python进行PDF文档处理

本文主要是介绍Python知识点：使用Python进行PDF文档处理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

使用 Python 进行 PDF 文档处理可以通过多种库来实现，包括 PyPDF2、pdfplumber、reportlab、pdfminer 等。这些库可以处理不同的 PDF 任务，例如 提取文本、拆分合并 PDF、修改 PDF、生成 PDF 等。以下是几种常见操作及对应的库和代码示例。

1. 安装常用库

首先，安装常用的 PDF 处理库：

pip install PyPDF2 pdfplumber reportlab

2. 提取 PDF 文本

PyPDF2 和 pdfplumber 都可以用于提取 PDF 文本。PyPDF2 更轻量，但有时处理复杂的 PDF 格式效果较差，而 pdfplumber 更加适合处理表格等复杂结构的 PDF。

使用 PyPDF2 提取文本

import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)# 提取每一页的文本for page_num in range(len(reader.pages)):page = reader.pages[page_num]text = page.extract_text()print(f"第 {page_num + 1} 页的文本:\n{text}")

使用 pdfplumber 提取文本

pdfplumber 更适合处理结构化数据，尤其是表格。

import pdfplumber# 打开 PDF 文件
with pdfplumber.open('sample.pdf') as pdf:for page_num in range(len(pdf.pages)):page = pdf.pages[page_num]text = page.extract_text()print(f"第 {page_num + 1} 页的文本:\n{text}")

3. 合并与拆分 PDF 文件

使用 PyPDF2 合并 PDF 文件

可以将多个 PDF 文件合并为一个文件。

import PyPDF2pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merger = PyPDF2.PdfMerger()for pdf in pdf_files:merger.append(pdf)# 保存合并后的 PDF 文件
with open('merged_output.pdf', 'wb') as output_file:merger.write(output_file)

使用 PyPDF2 拆分 PDF 文件

将 PDF 文件拆分为单独的页面。

import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)# 按页拆分并保存for page_num in range(len(reader.pages)):writer = PyPDF2.PdfWriter()writer.add_page(reader.pages[page_num])with open(f'split_page_{page_num + 1}.pdf', 'wb') as output_file:writer.write(output_file)

4. 创建和修改 PDF

使用 ReportLab 创建 PDF 文件

reportlab 是一个功能强大的库，可以用来生成新的 PDF 文件，支持插入文本、图片、图形等。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas# 创建 PDF 文件
c = canvas.Canvas("output.pdf", pagesize=letter)
c.drawString(100, 750, "Hello, this is a PDF created with ReportLab!")# 创建矩形
c.rect(100, 700, 400, 100)# 保存 PDF
c.showPage()
c.save()

使用 ReportLab 插入图片

你可以使用 reportlab 插入图片到 PDF 中。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvasc = canvas.Canvas("output_with_image.pdf", pagesize=letter)
c.drawString(100, 750, "This is a PDF with an image:")# 插入图片
c.drawImage("image.png", 100, 600, width=200, height=150)c.showPage()
c.save()

5. 提取 PDF 表格

pdfplumber 提供了提取 PDF 中表格的功能，非常适合处理含有表格的文档。

import pdfplumber# 打开 PDF 文件
with pdfplumber.open('table_sample.pdf') as pdf:first_page = pdf.pages[0]# 提取表格数据tables = first_page.extract_table()# 打印提取到的表格数据for row in tables:print(row)

6. PDF 文档加密与解密

使用 PyPDF2 加密 PDF 文件

你可以加密 PDF 文件，防止未经授权的访问。

import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)writer = PyPDF2.PdfWriter()for page_num in range(len(reader.pages)):writer.add_page(reader.pages[page_num])# 设置密码writer.encrypt(user_password='user123', owner_password='owner123')with open('encrypted_output.pdf', 'wb') as output_file:writer.write(output_file)

使用 PyPDF2 解密 PDF 文件

如果 PDF 文件已加密，解密并提取文本的方法如下：

import PyPDF2# 打开加密的 PDF 文件
with open('encrypted_output.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)# 提供密码reader.decrypt('user123')# 提取文本for page_num in range(len(reader.pages)):page = reader.pages[page_num]print(page.extract_text())

7. PDF 页面旋转

你可以旋转 PDF 的某些页面，以下是旋转页面的示例：

import PyPDF2# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:reader = PyPDF2.PdfReader(file)writer = PyPDF2.PdfWriter()# 旋转每页 90 度for page in reader.pages:page.rotate_clockwise(90)writer.add_page(page)# 保存旋转后的 PDF 文件with open('rotated_output.pdf', 'wb') as output_file:writer.write(output_file)

总结

Python 提供了多个强大的库来处理 PDF 文档。根据具体需求，选择适合的库来完成任务：

PyPDF2：适合基本的 PDF 操作，如合并、拆分、加密、旋转等。
pdfplumber：适合复杂的文本和表格提取。
reportlab：用于生成和修改 PDF 文件，支持文本、图像和图形的绘制。

通过这些工具，你可以轻松地处理 PDF 文档的各种操作，从文本提取到生成和修改文档。

这篇关于Python知识点：使用Python进行PDF文档处理的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Python知识点：使用Python进行PDF文档处理

1. 安装常用库

2. 提取 PDF 文本

使用 PyPDF2 提取文本

使用 pdfplumber 提取文本

3. 合并与拆分 PDF 文件

使用 PyPDF2 合并 PDF 文件

使用 PyPDF2 拆分 PDF 文件

4. 创建和修改 PDF

使用 ReportLab 创建 PDF 文件

使用 ReportLab 插入图片

5. 提取 PDF 表格

6. PDF 文档加密与解密

使用 PyPDF2 加密 PDF 文件

使用 PyPDF2 解密 PDF 文件

7. PDF 页面旋转

总结

相关文章

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

Python+FFmpeg实现视频自动化处理的完整指南

python中的flask_sqlalchemy的使用及示例详解

Spring配置扩展之JavaConfig的使用小结

Python实现快速扫描目标主机的开放端口和服务

Go异常处理、泛型和文件操作实例代码

Python轻松实现Word到Markdown的转换

Python中4大日志记录库比较的终极PK

Java使用Spire.Doc for Java实现Word自动化插入图片

Springboot3 ResponseEntity 完全使用案例