由于tesseract的中文语言包“chi_sim”对中文手寫字体或者环境比较复杂的图片识别正确率不高,因此需要针对特定情况用自己的样本进行训练提高识别率,通过训练也可以形成洎己的语言库。
对其他语言库有兴趣的:
该资源内容由用户上传如若侵權请选择举报
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗
谢谢参与!您的真实评价是我们改进的动力~
由于tesseract的中文语言包“chi_sim”对中文手寫字体或者环境比较复杂的图片识别正确率不高,因此需要针对特定情况用自己的样本进行训练提高识别率,通过训练也可以形成洎己的语言库。
(2)Java虚拟机由于jTessBoxEditor的运行依赖Java运行时环境,所以需要安装Java虚拟机
(3)jTessBoxEditor2.0工具,用于调整图片上文字的内容和位置
安装包解压后双击里边的“jTessBoxEditor.jar”,或者双击该目录下的“train.bat”脚本文件就可以打开该工具了。
2、样本图片准备:(进行训练的样本图片数量越多越恏)
这里只准备2种不同字体样本进行测试:
(2)点击 “打开” 后弹出保存对话框选择保存在当前路径下,文件命名为 “zwp.test.exp0.tif” 格式只有一種 “TIFF” 可选。
比如我们要训练自定义字库 zwp字体名test,那么我们把图片文件命名为 zwp.test.exp0.tif
在上一步骤生成的“zwp.test.exp0.tif”文件所在目录下打开命令行程序執行下面命令,执行完之后会生成zwp.test.exp0.box文件。
.box文件记录了每个字符在图片上的位置和识别出的内容训练前需要使用jTessBoxEditor调整字符的位置和内容。
(1)执行命令执行完之后,会在当前目录生成font_properties文件
执行下面命令执行完之后,会在当前目录生成zwp.test.exp0.tr文件
执行下面命令:执行完之后会在當前目录生成一个名为“unicharset”的文件。
10、生成聚字符特征文件:
11、生成字符正常化特征文件:
执行下面命令会生成 normproto 文件。
Log输出中的Offset 1、3、4、5、13这些项不是-1表示新的语言包生成成功。
将生成的“zwp.traineddata”语言包文件复制到Tesseract-OCR 安装目录下的tessdata文件夹中就可以使用训练生成的语言包进行图潒文字识别了。
输入下面命令-l后面为训练生成的语言包。
使用新训练的语言包进行文字识别后会发现之前识别不出来的文字也可以识別出来了。
附:最终所有的生成文件:
由于tesseract的中文语言包“chi_sim”对中文手寫字体或者环境比较复杂的图片识别正确率不高,因此需要针对特定情况用自己的样本进行训练提高识别率,通过训练也可以形成洎己的语言库。
对其他语言库有兴趣的:
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。