深度学习(六):paddleOCR理解及识别手写体,手写公式,表格

2023-12-07 06:52

本文主要是介绍深度学习(六):paddleOCR理解及识别手写体,手写公式,表格,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.介绍

1.1 什么是OCR?

光学字符识别(Optical Character Recognition, OCR),ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术,检测图像中的文本资料,并且识别出文本的内容。

那么有哪些应用场景呢?

其实我们日常生活中处处都有ocr的影子,比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中,机器学习已经越来越多的扮演着重要角色,也不再是神秘的东西。

OCR的技术路线是什么呢?

ocr的运行方式:输入->图像预处理->文字检测->文本识别->输出
在这里插入图片描述

1.2paddleOCR

PaddleOCR是一个基于深度学习的中文OCR(光学字符识别)工具,由清华大学KEG实验室和智谱AI公司开发。它是一个开源的OCR引擎,可以识别中文、英文、数字等多种字体,支持表格、PDF、图片等多种格式。PaddleOCR具有高精度、高召回率、高效率等优点,已经被广泛应用于金融、医疗、电商等多个领域。

以下是PaddleOCR的一些主要功能和特点:

  1. 中文识别:PaddleOCR支持中文识别,可以识别多种字体和格式,如表格、PDF、图片等。
  2. 英文识别:PaddleOCR也支持英文识别,可以识别英文格式。
  3. 数字识别:PaddleOCR可以识别数字格式,包括整数和小数。
  4. 表格识别:PaddleOCR可以识别表格格式,可以提取表格中的数据。
  5. PDF识别:PaddleOCR可以识别PDF格式,可以提取PDF中的文本和图片。
  6. 图片识别:PaddleOCR可以识别图片格式,可以提取图片中的文本和图片。
  7. 高精度:PaddleOCR具有高精度,可以识别高复杂度文本和格式。
  8. 高召回率:PaddleOCR具有高召回率,可以识别漏掉的文本和格式。
  9. 高效率:PaddleOCR具有高效率,可以快速识别文本和格式。

总之,PaddleOCR是一个强大的OCR引擎,可以识别多种格式和字体,具有高精度、高召回率和高效率等特点,已经被广泛应用于多个领域。

1.3使用方法

1. ocr(image, use_angle_cls=False, use_distance_cls=False, rotate_mode=’ clockwise’, language=‘eng’, force_cpu=False, return_
RESULT=False):该方法是 PaddleOCR
的核心方法,用于实现图像文本检测和识别。它接受一张图像作为输入,并返回一个包含文本检测结果和识别的结果的字典。
2. rotate_image(image, angle):该方法用于对图像进行旋转,支持顺时针和逆时针两种旋转方式。
3. rescale_image(image, scale):该方法用于对图像进行缩放,支持按比例和不按比例两种缩放方式。
4. preprocess_image(image):该方法用于对图像进行预处理,包括归一化、去噪、二值化等操作。
5. postprocess_prediction(boxes, probs, class_labels):该方法用于对文本检测结果进行后处理,包括过滤噪声、去除重复框、修正文本框等操作。
6. draw_detections(image, boxes, probs, class_labels, min_conf=0.5):该方法用于在图像上绘制文本检测结果,包括文本框、类别标签和概率等信息。
7. batch_ocr(images, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’, language=‘eng’, force_cpu=False,
return_RESULT=False):该方法用于实现批处理文本检测和识别,支持同时处理多张图像。
8. create_predictor(model_path, use_angle_cls=False, use_distance_cls=False, rotate_mode=‘clockwise’,
language=‘eng’):该方法用于创建文本检测和识别的预测器,支持加载预训练模型和自定义模型。
9. save_checkpoint(model_path, epoch, save_optimizer=False):该方法用于保存模型的检查点文件,支持保存当前训练的模型和优化器。
10. draw_text(image, text, position, font, color, thickness):该方法用于在图像上绘制文本,支持设置文本的位置、字体、颜色和粗细等参数。
该方法用于在图像上绘制文本,可以设置文本的位置、字体、颜色和粗细等参数。它是 PaddleOCR
中一个非常实用的方法,可以用于生成文本标签、添加说明等操作。
11. restore_checkpoint(model_path):该方法用于恢复模型的检查点文件,支持加载之前训练的模型。
12. accuracy(predictions, ground_truth):该方法用于计算文本检测和识别的准确率,支持同时计算多个类别的准确率。
13. evaluate(predictions, ground_truth, iou_threshold=0.5):该方法用于评估文本检测和识别的结果,支持同时计算多个类别的召回率、精确率、F1 值等指标。
14. confusion_matrix(predictions, ground_truth):该方法用于生成混淆矩阵,用于分析文本检测和识别的结果。
15. classification_report(predictions, ground_truth):该方法用于生成分类报告,用于分析文本检测和识别的结果。

2.理解

相比于PP-OCR,PP-OCRv2 在骨干网络、数据增广、损失函数这三个方面进行进一步优化,解决端侧预测效
率较差、背景复杂和相似字符误识等问题,同时引入了知识蒸馏训练策略,进一步提升模型精度。具体地:
• 检测模型优化: (1) 采用 CML 协同互学习知识蒸馏策略;(2) CopyPaste 数据增广策略;
• 识别模型优化: (1) PP-LCNet 轻量级骨干网络;(2) U-DML 改进知识蒸馏策略;(3) Enhanced CTC loss 损
失函数改进。
从效果上看,主要有三个方面提升:
• 在模型效果上,相对于 PP-OCR mobile 版本提升超7%;
• 在速度上,相对于 PP-OCR server 版本提升超过220%;
• 在模型大小上,11.6M 的总大小,服务器端和移动端都可以轻松部署。
在这里插入图片描述

3.实现

3.1手写体

安装导入

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddlepaddle
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple paddleocr
from paddleocr import PaddleOCR
import re
ocr = PaddleOCR(lang="ch")  # 使用中文识别
result = ocr.ocr("tp.png")for line in result:print(line)  # 输出识别结果 

在这里插入图片描述
在这里插入图片描述

3.2手写公式

ocr = PaddleOCR(lang="ch",model_path="path/to/数学符号识别模型")
# 使用数学符号识别模型进行公式识别
result = ocr.ocr("gs.png")
for line in result:# 输入文本equation_text = lineprint(equation_text)

在这里插入图片描述
在这里插入图片描述

3.3表格识别

import os
import cv2
from paddleocr import PPStructure,draw_structure_result,save_structure_restable_engine = PPStructure(show_log=True)save_folder = './output'
img_path = 'BG.png'
img = cv2.imread(img_path)
result = table_engine(img)
save_structure_res(result, save_folder,os.path.basename(img_path).split('.')[0])for line in result:line.pop('img')print(line)from PIL import Imagefont_path = 'doc/fonts/simfang.ttf' # PaddleOCR下提供字体包
image = Image.open(img_path).convert('RGB')
im_show = draw_structure_result(image, result,font_path=font_path)
im_show = Image.fromarray(im_show)
im_show.save('result.jpg') 

在这里插入图片描述

在这里插入图片描述

这篇关于深度学习(六):paddleOCR理解及识别手写体,手写公式,表格的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/464903

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

如何正确识别一台POE交换机的好坏? 选购可靠的POE交换机注意事项

《如何正确识别一台POE交换机的好坏?选购可靠的POE交换机注意事项》POE技术已经历多年发展,广泛应用于安防监控和无线覆盖等领域,需求量大,但质量参差不齐,市场上POE交换机的品牌繁多,如何正确识... 目录生产标识1. 必须包含的信息2. 劣质设备的常见问题供电标准1. 正规的 POE 标准2. 劣质设

Java利用Spire.XLS for Java设置Excel表格边框

《Java利用Spire.XLSforJava设置Excel表格边框》在日常的业务报表和数据处理中,Excel表格的美观性和可读性至关重要,本文将深入探讨如何利用Spire.XLSforJava库... 目录Spire.XLS for Java 简介与安装Maven 依赖配置手动安装 JAR 包核心API介

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置