基于移动设备的OCR识别工作进展(1)

2023-10-24 17:40

本文主要是介绍基于移动设备的OCR识别工作进展(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 模型调研

模型1:Tesseract-OCR
模型2:PaddleOCR

  • Android上面有体验版的demo:https://ai.baidu.com/easyedge/app/openSource?from=paddlelite
  • PP-OCR模型:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/README_ch.md
  • 源代码:https://github.com/PaddlePaddle/PaddleOCR

2 PaddleOCR模型

2.1 基于Android端的PaddleOCR模型部署

详细情况见:http://t.csdn.cn/HjBd8

2.2 手机端Demo测试结果(基于ch_ppocr_mobile_v2.0)

详细情况见:https://blog.csdn.net/weixin_39133209/article/details/126301841
面临的主要问题有:英文模型识别还有问题。
在这里插入图片描述

2.3 PaddleOCR安卓Demo存在的问题

http://t.csdn.cn/Irzor

3 MNN推理模型

3.1 技术调研

https://github.com/alibaba/mnn
https://www.mnn.zone/m/0.3/
https://github.com/alibaba/MNNKit
https://www.yuque.com/mnn/cn
https://www.yuque.com/mnn/cn/build_android

3.1.1 Android + MNN + OCR

https://github.com/luoqianlin/mnn-android-ocr-demo
在这里插入图片描述
这个工程是2021年2月份的模型了,不过也可以借鉴。

3.1.2 linux/macos/windows + MNN + OCR

https://github.com/DayBreak-u/chineseocr_lite
在这里插入图片描述

3.2 我们的工作:Android 编译 MNN及MNN 模型转换

https://blog.csdn.net/qq_40206924/article/details/126570574

3.3 我们的工作:如何利用已有so文件的模型

https://www.linuxquestions.org/questions/programming-9/reading-apis-from-a-so-file-822438/
这个链接提供了四个思路来使用已有so文件的API:
(1)反编译,去看头文件;
(2)命令:
nm -g your.so | awk 'NF3 && $2"T" { print }"
在这里插入图片描述

(3)命令:
objdump -d -j .text xx.so
在这里插入图片描述

(4)readelf工具
在这里插入图片描述

4 NCNN模型

4.1 技术调研

https://ncnn.docsforge.com/

4.1 Android + NCNN + OCR

https://github.com/benjaminwan/OcrLiteAndroidNcnn
在这里插入图片描述
这个工程主要支持中文识别,如果是英文识别,还需要更换模型。

4.2 我们的工作:Android 编译 NCNN及测试OcrLiteAndroidNcnn项目

https://blog.csdn.net/qq_44309220/article/details/126582847
OcrLiteAndroidNcnn项目效果测试:
http://t.csdn.cn/dZ1nq

5 模型对比实验

5.1 PaddleOCR和扫描王之间的对比

http://t.csdn.cn/69YAv

5.2 Chinese-Lite、PaddleOCR和扫描王之间的对比

对比的产品有:

  • 基于NCNN框架构建的OcrLiteAndroidNcnn
  • PaddleOCRv2
  • 竞品扫描王

对比的结果如下:

1、较暗图片 Chinese-Lite 弱于PaddleOCR 。Chinese-Lite弱于竞品
2、文字密度:对于稀疏文字,PaddleOCR 效果和 Chinese-Lite 不相上下。Chinese-Lite检测优于竞品,识别弱于竞品;
对于密集文字,Chinese-Lite 检测和 PaddleOCR 同样优秀,识别优于PaddleOCR。Chinese-Lite检测优于竞品,识别弱于竞品。
3、颜色:对于字体颜色,Chinese-Lite 检测和识别优于PaddleOCR。Chinese-Lite 识别弱于竞品;
对于背景颜色,Chinese-Lite 检测优于 PaddleOCR,不会出现漏检,识别率弱于PaddleOCR。Chinese-Lite 识别率弱于竞品。
4、不同角度:
60度:Chinese-Lite 检测和识别优于PaddleOCR,但识别中无法还原正确语序。Chinese-Lite 检测和识别优于竞品。
120度:Chinese-Lite 不能检测和识别。
180度:Chinese-Lite 检测弱于 PaddleOCR,识别优于 PaddleOCR。Chinese-Lite 识别弱于竞品。
5、扭曲变形:
Chinese-Lite 检测识别优于 PaddleOCR,基本能够检测识别出大部分内容;Chinese-Lite 识别弱于竞品。
6、手写体:
Chinese-Lite 对手写体几乎不能检测

总体而言:
PaddleOCR和Chinese-Lite的对比:

  • 在检测方面:PaddleOCR 尽可能多地以行为单位,而Chinese-Lite 更多是以几个单词为一个单位。猜测这就是Chinese-Lite会在褶皱方面优于PaddleOCR的原因。PaddleOCR除了褶皱方面以外,总体要优于Chinese-Lite;
  • 在识别方面:PaddleOCR 更注重识别出每个字符,而Chinese-Lite 更注重分词(很少出现字母连贯);
  • 在识别速度方面:PaddleOCR优于Chinese-Lite。

Chinese-Lite和竞品的对比:

  • 竞品整体的效果还是要强于 Chinese-Lite。

先基于paddleocr进行开发,然后去研究Chinese-lite的一些优点,利用Chinese-lite的优点来改进paddleocr的模型。

这篇关于基于移动设备的OCR识别工作进展(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/276757

相关文章

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

Android与iOS设备MAC地址生成原理及Java实现详解

《Android与iOS设备MAC地址生成原理及Java实现详解》在无线网络通信中,MAC(MediaAccessControl)地址是设备的唯一网络标识符,本文主要介绍了Android与iOS设备M... 目录引言1. MAC地址基础1.1 MAC地址的组成1.2 MAC地址的分类2. android与I

双系统电脑中把Ubuntu装进外接移动固态硬盘的全过程

《双系统电脑中把Ubuntu装进外接移动固态硬盘的全过程》:本文主要介绍如何在Windows11系统中使用VMware17创建虚拟机,并在虚拟机中安装Ubuntu22.04桌面版或Ubunt... 目录一、首先win11中安装vmware17二、磁盘分区三、保存四、使用虚拟机进行系统安装五、遇见的错误和解决

使用FileChannel实现文件的复制和移动方式

《使用FileChannel实现文件的复制和移动方式》:本文主要介绍使用FileChannel实现文件的复制和移动方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录使用 FileChannel 实现文件复制代码解释使用 FileChannel 实现文件移动代码解释

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

嵌入式Linux之使用设备树驱动GPIO的实现方式

《嵌入式Linux之使用设备树驱动GPIO的实现方式》:本文主要介绍嵌入式Linux之使用设备树驱动GPIO的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、设备树配置1.1 添加 pinctrl 节点1.2 添加 LED 设备节点二、编写驱动程序2.1

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的