利用jTessBoxEditor工具进行Tesseract3.02.02样本训练

2024-01-31 09:18

本文主要是介绍利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考自:

  • 官方:https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#bootstrapping-a-new-character-set
  • http://blog.csdn.net/why200981317/article/details/48265621
  • http://www.cnblogs.com/cnlian/p/5765871.html
  • http://www.cnblogs.com/zhongtang/p/5555950.html?utm_source=tuicool&utm_medium=referral
  • jTessBoxEditor下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
    这个工具是基于java虚拟机运行的,所以我们还要下载并安装一个java虚拟机
  • tesseract可以去我的资源页下载:http://download.csdn.net/detail/ss_s1gn/9810646

1.生成tif文件

将图片用 画图 打开,保存为tif格式。
注意:保存的文件名为:
这里写图片描述

2.生成box文件(需要安装tesseract)

在命令行进入存放tif文件的目录,输入:

tesseract lang.sign.img.tif lang.sign.img batch.nochop makebox

3.打开下载好的jTessBoxEditor,点击

这里写图片描述

4.点击Box Editor –>>open 打开以tif为扩展名的文件

这里写图片描述

5.用jTessBoxEditor打开前面的tiff=文件lang.sign.img1.tif,工具会自动加载对应的box文件。

这里写图片描述
需要删除点击delete
需要新增点击insert
需要切割点击split
如图,可对对应的字符进行修正,输入正确的字符,enter确定
最后不要忘了点击save保存(注意:我使用的时候,如果只是修改数据,save按钮不可点击,可以新增一条无用数据,再删除就可以保存了)

6.生成font_properties

在命令行输入:

echo sign 0 0 0 0 0 >font_properties

7.生成训练文件

在命令行输入:

tesseract lang.sign.img.tif lang.sign.img nobatch box.train

8.生成字符集文件

在命令行输入:

unicharset_extractor lang.sign.img.box 

如果有多个,就在后面依次添加
eg:

unicharset_extractor lang.sign.img.box lang.sign.img1.box lang.sign.img2.box

9.生成shape文件

在命令行输入:

shapeclustering -F font_properties -U unicharset lang.sign.img.tr

注意:lang.unicharset 对应你的语言名称
如果有多个,就在后面依次添加
eg:

shapeclustering -F font_properties -U unicharset lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr

10.生成聚集字符特征文件

mftraining -F font_properties -U unicharset -O lang.unicharset lang.sign.img.tr

注意:lang.unicharset 与上一部的lang.unicharset 对应
如果有多个,就在后面依次添加
eg:

mftraining -F font_properties -U unicharset -O lang.unicharset lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr

11.生成字符正常化特征文件

在命令行输入:

cntraining lang.sign.img.tr

如果有多个,就在后面依次添加
eg:

cntraining lang.sign.img.tr lang.sign.img1.tr lang.sign.img2.tr

12.更名

rename normproto lang.normproto 
rename inttemp lang.inttemp 
rename pffmtable lang.pffmtable 
rename unicharset lang.unicharset 
rename shapetable lang.shapetable

13.合并训练文件

执行命令,生成lang.traineddata文件

combine_tessdata lang.

注意:命令行最后必须带一个点。

14.最后将lang.trainddata复制到Tesseract-OCR中tessdata文件夹即可

tesseract test.png output -l lang

lang就是根据我们生成的lang.traineddata去识别
也可以用google的eng.traineddata或其它库识别
在生成的output.txt查看扫描的结果

这篇关于利用jTessBoxEditor工具进行Tesseract3.02.02样本训练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/663258

相关文章

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

sqlite3 命令行工具使用指南

《sqlite3命令行工具使用指南》本文系统介绍sqlite3CLI的启动、数据库操作、元数据查询、数据导入导出及输出格式化命令,涵盖文件管理、备份恢复、性能统计等实用功能,并说明命令分类、SQL语... 目录一、启动与退出二、数据库与文件操作三、元数据查询四、数据操作与导入导出五、查询输出格式化六、实用功

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

使用Python进行GRPC和Dubbo协议的高级测试

《使用Python进行GRPC和Dubbo协议的高级测试》GRPC(GoogleRemoteProcedureCall)是一种高性能、开源的远程过程调用(RPC)框架,Dubbo是一种高性能的分布式服... 目录01 GRPC测试安装gRPC编写.proto文件实现服务02 Dubbo测试1. 安装Dubb

基于Python开发Windows屏幕控制工具

《基于Python开发Windows屏幕控制工具》在数字化办公时代,屏幕管理已成为提升工作效率和保护眼睛健康的重要环节,本文将分享一个基于Python和PySide6开发的Windows屏幕控制工具,... 目录概述功能亮点界面展示实现步骤详解1. 环境准备2. 亮度控制模块3. 息屏功能实现4. 息屏时间

SQLite3命令行工具最佳实践指南

《SQLite3命令行工具最佳实践指南》SQLite3是轻量级嵌入式数据库,无需服务器支持,具备ACID事务与跨平台特性,适用于小型项目和学习,sqlite3.exe作为命令行工具,支持SQL执行、数... 目录1. SQLite3简介和特点2. sqlite3.exe使用概述2.1 sqlite3.exe

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件