PyPDF2的使用

2024-03-15 23:58
文章标签 使用 pypdf2

本文主要是介绍PyPDF2的使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

pdf使用Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑

在这篇文章中,我们将学习如何做一些pdf的操作:

从PDF中提取文字

旋转pdf页

合并pdf

分割pdf

向pdf页中添加水印

使用简单的python脚本

1、安装

我们将使用第三方的模块 PyPDF2


PyPDF2是作为PDF工具包构建的python库,它能够:
  • 提取文档信息(标题,作者,...)
  • 按页拆分文档
  • 逐页合并文档
  • 裁剪页面
  • 合并多个页面到一个页
  • 对pdf文档进行加密解密
  • 等等

安装PyPDF2,在命令行下执行命令:

pip install PyPDF2

注意,这个模块的名字对大小写是敏感的,所以,确保y是小写的,其他字母都是大写的

2、使用模块

- 从pdf中提取文字

import PyPDF2pdfFile = open('example.pdf','rb')pdfReader = PyPDF2.PdfFileReader(pdfFile)print(pdfReader.numPages)page = pdfReader.getPage(0)print(page.extractText())pdfFile.close()

在我的机子上输出如下:

241Copyright © 201
7by OriginLab CorporationAll rights reserved. No part of the contents of this book may be reproduced or 
transmitted in any form or by any means without the written permission of OriginLab 
Corporation.OriginLab, Origin, 
and LabTalk are either registered trademarks or trademarks of 
OriginLab Corporation. Other product and company names mentioned herein may be 
the trademarks of their respective owners.

我们来逐步分析一下上面的代码

pdfFile = open('example.pdf','rb')

我们以二进制的方式打开example.pdf,并且保存为pdfFile

pdfReader = PyPDF2.PdfFileReader(pdfFile)

我们创建了一个PyPDF2模块中PdfFileReader类的对象,并将pdfFile对象传进去,获取pdfReader对象

print(pdfReader.numPages)

numPages 属性保存了pdf的页数,在我的例子中,numPages = 241

page = pdfReader.getPage(0)

现在,我们创建了一个page对象。pdfReader的getPage方法可以接受页码参数,并返回页面对象。

print(page.extractText())

page的extractText()方法,可以提取出页面中的文字

pdfFile.close()

最后,关闭打开的example.pdf

注意:虽然PDF文件非常适合以一种便于打印和阅读的方式显示文本,但是对于软件来说,将其解析为纯文本并不容易。因此,PyPDF2在从PDF中提取文本时可能会出错,甚至可能根本无法打开某些PDF。不幸的是,你对此无能为力。PyPDF2可能无法处理某些特定的PDF文件。

- 旋转pdf页


import PyPDF2def PDFrotate(origFileName,newFileName,rotation):pdfFile = open(origFileName,'rb')pdfReader = PyPDF2.PdfFileReader(pdfFile)pdfWriter = PyPDF2.PdfFileWriter()for page in range(pdfReader.numPages):pageObj = pdfReader.getPage(page)pageObj.rotateClockwise(rotation)pdfWriter.addPage(pageObj)newFile = open(newFileName,'wb')pdfWrite.write(newFile)pdfFile.close()newFile.close()def main():origFileName = 'example.pdf'newFileName = 'rotated_example.pdf'rotation = 270PDFrotate(origFileName,newFileName,rotation)if __name__ == "__main__":main()

我们看一下关键的代码:

pdfWriter = PyPDF2.PdfFileWriter()

因为我们是将旋转后的页面写入新的pdf,所以首先创建一个PdfFileWriter对象:pdfWriter。

for page in range(pdfReader.numPages):pageObj = pdfReader.getPage(page)pageObj.rotateClockwise(rotation)pdfWriter.addPage(pageObj)

通过pdfReader.numPages,获取pdf的页数,然后进行循环。
循环体中,先创建每一页的对象,然后调用页面对象的rotateClockwise方法,传入的参数是顺时针旋转的度数。最后,旋转后的页面对象作为参数传给pdfWriter的addPage方法。

newFile = open(newFileName,'wb')pdfWrite.write(newFile)pdfFile.close()newFile.close()

打开新的文件,以写的方式,将我们新生成的pdf写入。然后关闭两个文件

- 合并pdf文件

import PyPDF2def PDFmerge(pdfs,output):#创建一个pdf文件合并对象pdfMerger = PyPDF2.PdfFileMerger()#逐个添加pdffor pdf in pdfs:with open(pdf,'rb') as f:pdfMerger.append(f)#将内存中合并的pdf文件写入with open(output,'wb') as f:pdfMerger.write(f)def main():#需要合并的pdf名称pdfs = ['example.pdf','testexample.pdf']#合并完成的pdf名称output = 'combined_example.pdf'#调用PDFmerge函数,进行合并PDFmerge(pdfs,output)
if __name__ == '__main__':main()

- 给pdf添加水印

import PyPDF2def add_watermark(wmFile,pageObj):#打开水印pdf文件wmFileObj = open(wmFile,'rb')#创建pdfReader对象,把打开的水印pdf传入pdfReader = PyPDF2.PdfFileRdader(wmFileObj)#将水印pdf的首页与传入的原始pdf的页进行合并pageObj.mergePage(pdfReader.getPage(0))wmFileObj.close()return pageObjdef main():#水印pdf的名称watermark = 'watermark.pdf'#原始pdf的名称origFileName = 'example.pdf'#合并后新的pdf名称newFileName = 'watermark_example.pdf'#打开原始的pdf文件,获取文件指针pdfFileObj = open(origFileName,'rb')#创建reader对象pdfReader = PyPDF2.PdfFileReader(pdfFileObj)#创建一个指向新的pdf文件的指针pdfWriter = PyPDF2.PdfFileWriter()#通过迭代将水印添加到原始pdf的每一页for page in range(pdfReader.numPages):wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))#将合并后的即添加了水印的page对象添加到pdfWriterpdfWriter.addpage(wPageObj)#打开新的pdf文件newFile = open(newFileName,'wb')#将已经添加完水印的pdfWriter对象写入文件pdfWriter.write(newFile)#关闭原始和新的pdfpdfFileObj.close()newFile.close()if __name__ == '__main__':main()

过程大致和旋转的例子一样

wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))

我们通过自定义的add_watermark函数将水印与原始pdf页进行合并。
让我们来观察一下add_watermark函数

wmFileObj = open(wmFile, 'rb')
pdfReader = PyPDF2.PdfFileReader(wmFileObj) 
pageObj.mergePage(pdfReader.getPage(0))
wmFileObj.close()
return pageObj

首先,我们创建了一个pdf reader对象。对于传递的页面对象,我们使用mergePage()函数传递水印,这将在传递的页面对象上覆盖水印。

这篇关于PyPDF2的使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/813687

相关文章

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数,和可以安装的扩展函数

如何使用Lombok进行spring 注入

《如何使用Lombok进行spring注入》本文介绍如何用Lombok简化Spring注入,推荐优先使用setter注入,通过注解自动生成getter/setter及构造器,减少冗余代码,提升开发效... Lombok为了开发环境简化代码,好处不用多说。spring 注入方式为2种,构造器注入和setter

MySQL中比较运算符的具体使用

《MySQL中比较运算符的具体使用》本文介绍了SQL中常用的符号类型和非符号类型运算符,符号类型运算符包括等于(=)、安全等于(=)、不等于(/!=)、大小比较(,=,,=)等,感兴趣的可以了解一下... 目录符号类型运算符1. 等于运算符=2. 安全等于运算符<=>3. 不等于运算符<>或!=4. 小于运

使用zip4j实现Java中的ZIP文件加密压缩的操作方法

《使用zip4j实现Java中的ZIP文件加密压缩的操作方法》本文介绍如何通过Maven集成zip4j1.3.2库创建带密码保护的ZIP文件,涵盖依赖配置、代码示例及加密原理,确保数据安全性,感兴趣的... 目录1. zip4j库介绍和版本1.1 zip4j库概述1.2 zip4j的版本演变1.3 zip4

Python 字典 (Dictionary)使用详解

《Python字典(Dictionary)使用详解》字典是python中最重要,最常用的数据结构之一,它提供了高效的键值对存储和查找能力,:本文主要介绍Python字典(Dictionary)... 目录字典1.基本特性2.创建字典3.访问元素4.修改字典5.删除元素6.字典遍历7.字典的高级特性默认字典

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录​1.assign的基本功能​​语法​2. 具体用法示例​​​(1) 填充n个相同值​​(2)

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定