为什么ocr tesseractocr会Restart并报错?

  • 训练数据放在 res/raw 目录下需要识别其他语言可另行下载替换。本项目使用的为英文识别训练包

  • 数字识别时,框小一点会好识别(可以手动调节大小的扫描框)

  • 数字识别對于手写体识别效率不高,主要是训练包问题有需求可自行训练。

}
  • 100w优质文档免费下载
  • 赠百度阅读VIP精品版
}

  上篇文章简单的学习了ocr tesseractact-ocr识别圖片中的英文(链接地址如下:)看起来效果还不错,所以这篇文章继续深入学习ocr tesseractact-ocr识别图片中的中文

   下载chi_sim.traindata字库。要有这个才能识別中文下好后,放到ocr tesseractact-OCR项目的tessdata文件夹里面(注意下载字库,一定要看库对应的ocr tesseractact版本下载)

  为什么强调版本呢 小编这里讲自己做的愚蠢的事情附上,希望大家别入坑了

    上一篇学习ocr tesseractact-ocr中,识别的是英文然后小编下载了中文库,如下

  不知道是什么原因总是报错。报错如下:

  我找了多种方法包括重新安装库,配置环境变量仍然没有解决问题,所以在这里我又考虑到ocr tesseractact的版本问题,所以打算重新最新版 w64-v4.0.0继续试试。附上下载链接地址

   经过一天的折腾在ocr tesseractact的GitHub中,我偶然发现了问题的所在可以说自己是非常的蠢,请看下圖

   也就是不同的版本安装的中文包是不同的,而我乱安装了包所以一直报错,还没有解决问题下次一定不能这么粗心。

  下載jTessBoxEditor这个是用来训练字库的。

  以上的在百度都能找到下载就不详细讲了(要是找不到的,可以留言给我)下载好之后就是这样的。

三下载Java虚拟机(Java大法好啊)

  如果你刚刚接触Java语言,并且对它兴趣很大想继续研究。那么这节就来给你说说怎么安装Java工具JDK它是伱进行Java的第一步。

  其中图片中现实的上面是oracle公司提供的Java JDK上面有两个按钮,默认是不接受License你需要接受以后就可以下载Java的JDK,这里你需偠根据自己电脑的类型以及操作系统的位数,下载对应的JDK下面的一个是oracle公司对JDK提供的demos和Samples即简单的例子,可以供我们学习感兴趣的可鉯下载下来学习。

  双击JDK安装包点击下一步。

   这里选择不安装公共JRE因为公共JRE是一个独立的JRE系统,它是单独的安装在windows系统下的其他路徑下公用的JRE会向浏览器和系统中注册Java运行时的环境。通过向浏览器和系统中注册运行时的环境系统中的任何应用程序都可以使用公用JRE。但是现在在浏览器网页上执行applet的机会几乎没有并且JDK目录下JRE完全可以胜任,所以一般选择不安装公用JRE这里如果你不想安装在默认路径丅,可以选择更改目录

    单击下一步,会出现如下安装条

 1,随便制作一张有汉字的图片小编做的图片如下:

2,使用中文字库訓练程序如下:

#加载一下图片防止报错,此处可以省略 #调用show来展示图片调试用此处可以省略

3,使用中文字库训练的结果如下:

   从結果来看效果不太理想,所以我们要想得到更好的结果那么就需要训练自己的字库,下面小编开始训练自己的字库

1、将图片转换成tif格式,用于后面生成box文件可以通过画图,然后另存为tif即可

  更改图片名字这个是有要求的

 box文件和对应的tif一定要在相同的目录下,鈈然后面打不开

  找到tif图,打开并校正。

4、训练生成.tr文件。

  只要在命令行输入命令即可

  在这我明明已经矫正好了,但昰还是有1个字符不能识别出来报的错跟实际上完全没有相关性,不知道是不是bug到后面的结果就是“一”字没有识别出来。

   目录下會生成对应下列五个文件在这五个文件前加上normal.进行重命名

  合并五个文件,此时目录下的normal.traineddata 就是训练好的字库文件

  得到训练好的字庫如下:

  下面文件中会保存你识别到的数据;

  这个其实网上资料很多但大都描述的不够详细和完整,这里我一步一步把使用ocr tesseractact-ocr 训練字库的方法和步骤进行了描述亲测是没有问题。

  box文件的内容也同时会加载到jTessBoxEditor如果这部分的内容为空,则是没有生成.box文件的!如丅图:

  此处借用的是网友的图片方便,如有侵权请联系小编及时删除。

  当一个字被识别为两个时按住Ctrl键选中两个,然后点擊Merge即可进行合并!

  进行矫正 主要就是坐标 位置的调整,注意 添加需要选择上一个文字才能分离

  有些空白处可能也会被jTessBoxEditor误认为是字體,用蓝色框框住

  这个可以直接选中,delete掉就好了!

  正常情况下是每个字体都会有蓝色框框住如果说有其中的两个相邻的字都沒有被框住,这时候即使采用insert后加上蓝色框但是最后识别还是有问题,这个不懂是不是我操作不对! 最后发现原来是两个字体挨的太近嘚导致区别不开了,在老大的建议下把两个字的距离隔开点来,就可以正常的框出来了!(如果有更好的方法请指出,谢谢)

  修改完成后保存即可!这里我是一张张样本图片进行修改的但是我这样做每张都有做同样的纠正,不知道有没有批量修改的方法呢

  在对图片进行训练之前,最好先用Opencv进行下处理比如说二值化,这样就可以去掉一些干扰!但是要注意的是在识别之前同样的也对图片先进行相同效果的处理!这样的识别率会有所提高!

八  软件设置字体的方法

}

我要回帖

更多关于 tesserocr 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信