Python将PDF按页拆分为图片,并OCR识别为文本【windows,主要使用模块/工具包括wand、pytesseract、PIL等,附下载及安装】

本文主要是介绍Python将PDF按页拆分为图片,并OCR识别为文本【windows,主要使用模块/工具包括wand、pytesseract、PIL等,附下载及安装】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python将PDF按页拆分为图片,并OCR识别为文本

  • 下载所需安装包并完成安装
    • 1、下载并安装tesseract-ocr
    • 2、下载并安装imagemagic
    • 3、下载并安装Ghostscript
  • PFD转成jpeg图片,并识别成文本

下载所需安装包并完成安装

1、下载并安装tesseract-ocr

链接:https://pan.baidu.com/s/1FypYuviozcC4J0_1IR6hmQ
提取码:e28y
在这里插入图片描述
双击安装,默认下一步,并在这里选择简单中文:
在这里插入图片描述
选择安装目录,并记住安装路径,因为后续安装完成之后需要设置环境变量:

在这里插入图片描述

然后一直默认完成安装即可,完成后会在安装目录下看到文件夹:
在这里插入图片描述
设置环境变量,“我的电脑”->右键,选择“属性”–>“高级系统设置”–>“环境变量”–>“系统变量”–>找到“path”后点击编辑,然后新建,将刚刚完成的安装目录添加到“path”中:
在这里插入图片描述
同时新增一条“系统变量”,如下:
在这里插入图片描述

打开cmd,输入tesseract -V查看,若显示如下则表示安装成功:
在这里插入图片描述
使用tesseract a.jpg a -l chi_sim测试一下识别效果:
在这里插入图片描述
会生成一个名为a.txt的文件,里面保存有文本信息:
在这里插入图片描述
最后,为了在python中可以使用tesseract,需要安装pytesseract包来实现对Tesseract的调用(在命令行中使用tesseract,在python脚本中使用pytesseract)。使用 pip 安装 pytesseract; Pillow ,用于加载磁盘中的图像;pyocr,tesseractPython接口中的另一个:

pip install pillow
pip install pytesseract
pip install pyocr

示例:用python调用识别图片,有直接的函数:

text=pytesseract.image_to_string(PI.open(r'E:\a.jpg'),lang='chi_sim')
print(text)

在这里插入图片描述

2、下载并安装imagemagic

链接:https://pan.baidu.com/s/1monXyx3u5EH2FIeDa3waEQ
提取码:qbac
在这里插入图片描述
双击开始安装,点击下一步,注意在这里选择添加环境变量,否则要手动添加环境变量:
在这里插入图片描述
然后跟上面安装tesseract-ocr类似一直点击下一步完成安装即可(注意,大家根据具体情况可以选择安装目录):
在这里插入图片描述
可以去环境变量中查看到安装过程中已经自动配置好了环境变量。
打开cmd,使用magick --version 查看是否安装成功:
在这里插入图片描述
如上所示,安装成功。
为了使python能够调用成功,这里需要在python中安装模块wand

pip install wand

3、下载并安装Ghostscript

imagemagic在调用的时候会使用到Ghostscript这个依赖,如果没有的话会报错。
链接:https://pan.baidu.com/s/1HqzgSczZsRjF7oCj7ENZvg
提取码:32ql
在这里插入图片描述
双击安装,选择安装路径:
在这里插入图片描述
完成安装后,需要手动配置环境变量:
在这里插入图片描述
打开cmd,使用gswin32或者gswin64查看是否安装成功,若跳出如下右边窗口则说明安装成功:
在这里插入图片描述

PFD转成jpeg图片,并识别成文本

以上所需要的模块完成安装后,准备工作完成。

下面是PFD转成jpeg图片,并识别成文本的代码:

import io
from wand.image import Image #需要提前手动安装imagemagic,可从百度云下载,手动安装Ghostscript
from PIL import Image as PI
import pyocr#pip install
import pyocr.builders
import pytesseract #pip install,需要提前手动安装tesseract,可从百度云下载#重要!如果有报错tesseract环境变量的问题,说明发现两个环境变量的设置没有起作用,因此在python中可以重新设置一下
import os
#os.environ["PATH"]  #查看在PATH中有没有tesseract相关路径,没有则添加,注意改为你的相应安装路径
os.environ["PATH"] +=  os.pathsep + 'E:\Tesseract-OCR'
#'TESSDATA_PREFIX' in os.environ  #查看是否有新增TESSDATA_PREFIX的这个环境变量,没有则添加,注意改为你的相应安装路径
os.environ['TESSDATA_PREFIX']='E:\Tesseract-OCR'#设置识别识别工具
tool = pyocr.get_available_tools()[0]
#设置使用的语言,因为我们要识别的PDF是中文的,因此这里选择chi_sim
lang = tool.get_available_languages()[0]#定义列表用于存储图像与文本
req_image = []
final_text = []#采用wand将一个PDF文件转成jpeg文件,并将PDF中所有的独立页面都转成了独立的二进制图像对象
image_pdf = Image(filename=r"C:\Users\wangrx67\Desktop\审计项目\上下家合同样例1\下家合同.pdf",resolution=300)
with image_pdf.convert('jpeg') as converted:image_jpeg=image_pdf.convert('jpeg')#converted.save(filename='converted.jpeg') #按页进行拆分,并将每一页保存为jpeg格式的图片#遍历这个大对象,并把它们加入到req_image序列中去。
for img in image_jpeg.sequence:img_page = Image(image=img)req_image.append(img_page.make_blob('jpeg'))#在图像对象req_image序列上运行OCR进行识别,按页面变成一个列表
for img in req_image:txt = tool.image_to_string(PI.open(io.BytesIO(img)),lang=lang,builder=pyocr.builders.TextBuilder())final_text.append(txt)#可以将按页的识别列表整合成一个字符串
out_text=''
for i in final_text:out_text += i
out_text=out_text.replace("\n","")  # 因为我识别的文本中有很多空格,所以我将这些特殊“/n”字符都删除
print(out_text)  #out_text即为识别出的字符串文本

最终输出如下所示:
在这里插入图片描述
当然,如果你需要将pdf拆分转存为图片,或者按页识别等等,可以对代码稍微做修改实现。

参考
https://www.jb51.net/article/89955.htm

这篇关于Python将PDF按页拆分为图片,并OCR识别为文本【windows,主要使用模块/工具包括wand、pytesseract、PIL等,附下载及安装】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/204788

相关文章

Spring @RequestMapping 注解及使用技巧详解

《Spring@RequestMapping注解及使用技巧详解》@RequestMapping是SpringMVC中定义请求映射规则的核心注解,用于将HTTP请求映射到Controller处理方法... 目录一、核心作用二、关键参数说明三、快捷组合注解四、动态路径参数(@PathVariable)五、匹配请

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

Java 枚举的基本使用方法及实际使用场景

《Java枚举的基本使用方法及实际使用场景》枚举是Java中一种特殊的类,用于定义一组固定的常量,枚举类型提供了更好的类型安全性和可读性,适用于需要定义一组有限且固定的值的场景,本文给大家介绍Jav... 目录一、什么是枚举?二、枚举的基本使用方法定义枚举三、实际使用场景代替常量状态机四、更多用法1.实现接

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

springboot项目中使用JOSN解析库的方法

《springboot项目中使用JOSN解析库的方法》JSON,全程是JavaScriptObjectNotation,是一种轻量级的数据交换格式,本文给大家介绍springboot项目中使用JOSN... 目录一、jsON解析简介二、Spring Boot项目中使用JSON解析1、pom.XML文件引入依

Java中的record使用详解

《Java中的record使用详解》record是Java14引入的一种新语法(在Java16中成为正式功能),用于定义不可变的数据类,这篇文章给大家介绍Java中的record相关知识,感兴趣的朋友... 目录1. 什么是 record?2. 基本语法3. record 的核心特性4. 使用场景5. 自定

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”