• 首页
  • 狐文
  • 狐图
  • About
狐窝
OvO
  1. 首页
  2. 未分类
  3. 正文

Tesseract-OCR 训练中文

2017年08月08日 276点热度 0人点赞 0条评论

2016-03-01 18:35 from---http://blog.csdn.net/yongshi6/article/details/50773760

为了提高Tesseract库的中文识别率,可以对它进行中文字的训练。

1.首先安装Tesseract。这里注意要安装,因为安装的程序里面包含其他训练用到的程序,编译版本没有这些工具。


2.下载jTessBoxEditor工具。这个工具是Java写的,运行需要JRE。这个工具主要是用来修改BOX文件的,用来校对文字。下图为该工具的目录,直接点击红框中的程序即可跑起来。


这次准备让库可以识别取消这两个字,准备了5张图:


3.生成tif格式的文件

最好将图片都放在Tesseract库的安装目录下,然后就在这个目录下进行操作。点击jTessBoxEditor的Tools按钮中的Merge TIFF。然后将我们做样本的5张图片全部选中,点击打开。这时候会弹出另一个保存对话框,就是我们想要的tif文件,对于tif文件命名规则 [lang].[fontname].exp[num].tif。其中lang是语言,fontname是字体。按自己需求自行设定即可。点击保存,这时候目录下就有我们的tif文件了。




4.生成BOX文件

首先打开命令行,进入Tesseract目录,输入命令:tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox



5.校对文字

用jTessBoxEditor打开刚才生成的tif文件


我们会发现,文字显示的信息是不对的。


我们需要把每张图片的Char目录下的字符都改正过来。现在的Tesseract库将 取消 识别成了四部分,所以有1,2,3,4四行,我们需要它校正对两行,而且字符应该是 取消 。如下操作:



这个时候这两部分就合在一起了。但是Char这列显示的是 H,应该改成取。如下操作:


其他的字符同样操作,最后的效果就是这样了:


我这里一共有5张图,都把他们改好以后,点击Save即可。这时候我们可以看一下chi.myself.exp0.box文件(记事本打开即可),会发现里面做好了校正。


注:这步校正工具也可以在box文件里直接进行,但容易出错。

6.生成.tr文件

tesseract.exe  chi.myself.exp0.tif chi.myself.exp0  nobatch box.train


7.生成unicharset文件。

unicharset_extractor chi.myself.exp0.box



7.新建font_properties文件

用记事本新建一个明文font_properties文件,内容格式为:

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

用记事本如:myself 0 0 0 0 0  记住是5个0。

7.运行下面三条命令:

shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr
mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr
cntraining.exe chi.myself.exp0.tr


8.重命名

把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上myself.  注意有 点 。如下图:

执行命令

combine_tessdata myself.

生成这个文件,说明我们成功了。

将该文件拷贝到tessdata文件里,就可以进行测试使用了

标签: 暂无
最后更新:2017年08月08日

OvO

狐狸

点赞
< 上一篇
下一篇 >
最新 热点 随机
最新 热点 随机
brave编译打包时dump_syms报错Couldn't locate EXE or DLL file 使用Windows Kits创建PE 及精简镜像 Windows精简部署相关简易内容 APC UPS SUA1000ICH 踩坑记 TrueNAS SCALE虚拟机无法 Ping主机 TrueNas Scale libvirt-sock RDMA RoCE相关资料 Linux系统修改网卡名(eth0-3) Linux系统打开SRIOV 构建android内核时DTC工具中的多个定义错误 Windows 来宾系统提示“安全删除硬件” 修改jar的三种方法(反编译jar) 如何在 Debian 10上安装和配置 VNC Openwrt内SR-IOV网卡桥接问题 Linux下编译android 时报错loadlocale.c:130 windows 查看文件夹被那个进程占用 MongoDB中的多表关联 mongodb 学习记录
WIN10禁用WIN+F CentOS 7 下使用 Firewall 优化 Ext4 分区格式化后占用空间(通过降低inode数来节省磁盘空间) 用 rar2john+hashcat 破解 RAR 文件密码 Linux开机自动挂载磁盘 archlinux安装 Oracle sqlldr导入一个日期列实例详解 开源 NAS 操作系统不完全汇总 Centos7.4源码编译安装GCC7.2.0 Manjaro无法与vmware主机复制粘贴 软路由系统推荐 关于 N1 旁路由的设置 JavaScript 复制图片 如何隐藏windows 10 此电脑中多出来的 3D 对象 文件夹 Windows 8.1/Server 2012 R2 也可以 KMS激活了 如何构建一个中型的 web 应用(全栈技术) Comparison of proxifiers | 代理工具对比 如何在Linux中使用Google Drive,OneDrive,Dropbox,Amazon S3等云盘
标签聚合
网卡 密码 下载 https http linux com 文件 编译 路由 chrome docker e android ssl git

COPYRIGHT © 2020 狐窝. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS