PaddlePaddle----基于paddlehub的OCR识别

2024-03-06 18:04

本文主要是介绍PaddlePaddle----基于paddlehub的OCR识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Paddlehub介绍

        PaddleHub是一个基于PaddlePaddle深度学习框架开发的预训练模型库和工具集,提供了丰富的功能和模型,包括但不限于以下几种:

1.文本相关功能:包括文本分类、情感分析、文本生成、文本相似度计算等预训练模型和工具。

2.图像相关功能:包括图像分类、目标检测、人脸识别、图像生成等任务的预训练模型和工具。

3.视频相关功能:包括视频分类、视频目标检测、视频行为识别等任务的预训练模型和工具。

4.语音相关功能:包括语音识别、语音合成、语音情感分析等任务的预训练模型和工具。

5.推荐系统相关功能:包括推荐模型、召回模型等预训练模型和工具。

6.自然语言处理相关功能:包括词向量、句向量、文本匹配、关键词提取等预训练模型和工具。

7.多模态相关功能:包括图文匹配、文图生成等多模态任务的预训练模型和工具。

        除了以上列举的功能外,PaddleHub还提供了模型管理、模型训练、模型部署等功能,方便用户快速部署和使用深度学习模型。用户可以通过PaddleHub轻松实现各种深度学习任务,加速模型开发和部署过程。

Paddlehub的OCR环境搭建

        搭建环境的时候有两点需要注意:

  1. paddlepaddle和paddlehub的版本要匹配起来
  2. 需要安装隐形的依赖库(如下)
#需要将PaddleHub和PaddlePaddle统一升级到2.0版本
!pip install paddlehub==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple  
!pip install paddlepaddle==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple  
#该Module依赖于第三方库shapely、pyclipper,使用该Module之前,请先安装shapely、pyclipper 
!pip install shapely -i https://pypi.tuna.tsinghua.edu.cn/simple  
!pip install pyclipper -i https://pypi.tuna.tsinghua.edu.cn/simple 

这里我介绍一下我本机电脑的相关环境:

系统:windows10 企业版(无独立显卡)

编译器:python 3.6.8(X64)

依赖包:

numpy 1.16.4

pandas 0.21.1

scipy 1.2.2

opencv-python 3.4.2.16

paddlepaddle 1.8.4

paddlehub 1.8.2

Shapely  1.7.1

pyclipper 1.2.0

OCR介绍

        光学字符识别(Optical Character Recognition, OCR)是指对文本材料的图像文件进行分析识别处理,以获取文字和版本信息的过程。也就是说将图象中的文字进行识别,并返回文本形式的内容。例如(该预测效果基于PaddleHub一键OCR中文识别效果展示):

识别网络图如下:

 典型的OCR技术路线如下图所示:

        其中OCR识别的关键路径在于文字检测和文本识别部分,这也是深度学习技术可以充分发挥功效的地方。PaddleHub为大家开源的预训练模型的网络结构是Differentiable Binarization+ CRNN,基于icdar2015数据集下进行的训练。

环境测试

        下面用一段简单的代码来测试一下环境是否安装成功,该代码段功能主要是来检测图像中的文字区域,需要注意的是,你应该提前准备好一张图片“fp.png”和代码在同一个目录中。

import paddlehub as hub
import cv2text_detector = hub.Module(name="chinese_text_detection_db_server")
result = text_detector.detect_text(images=[cv2.imread('fp.png')])
print(result)

输出:

 提示: 第一次运行的时候需要联网下载相应的模型,否则会报错。我的因为模型下载完毕,所以提示无需安装。

OCR识别

# -*- coding = 'utf-8' -*-
# 测试OCR安装环境import paddlehub as hub
import cv2
import timefile = r'fp.png'
t1 = time.time()
#ocr = hub.Module(name="chinese_ocr_db_crnn_server")
ocr = hub.Module(name="chinese_ocr_db_crnn_mobile")
result_list = []
image = cv2.imread(file)
#print(image)
#image = image[440:550,170:290]
#image = cv2.resize(image,[300,300])
#cv2.imwrite('./2.jpg', image)
t2 = time.time()
results = ocr.recognize_text(images=[image],  # 图片数据,ndarray.shape 为 [H, W, C],BGR格式;use_gpu=False,  # 是否使用 GPU;若使用GPU,请先设置CUDA_VISIBLE_DEVICES环境变量visualization=True,  # 是否将识别结果保存为图片文件;box_thresh=0.5,  # 检测文本框置信度的阈值;text_thresh=0.5)  # 识别中文文本置信度的阈值;
for result in results:data = result['data']for index, infomation in enumerate(data):result_list.append(infomation['text'])
#print(result_list)
t3 = time.time()
print(results, t2-t1,t3-t2)

这篇关于PaddlePaddle----基于paddlehub的OCR识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/780883

相关文章

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Java使用Tesseract-OCR实战教程

《Java使用Tesseract-OCR实战教程》本文介绍了如何在Java中使用Tesseract-OCR进行文本提取,包括Tesseract-OCR的安装、中文训练库的配置、依赖库的引入以及具体的代... 目录Java使用Tesseract-OCRTesseract-OCR安装配置中文训练库引入依赖代码实