如何提高手写阿拉伯数字手写体的美感

手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。 - 下载频道
- CSDN.NET
&&&&手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。
手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。
字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入,如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
若举报审核通过,可奖励20下载分
被举报人:
举报的资源分:
请选择类型
资源无法下载
资源无法使用
标题与实际内容不符
含有危害国家安全内容
含有反动色情等内容
含广告内容
版权问题,侵犯个人或公司的版权
*详细原因:
您可能还需要
课程资源下载排行阿拉伯数字手写数据库
数据介绍Digit数据库是SCUT-COUCH2009数据库的一个子集数据库。SCUT-COUCH2009数据库是第一款公开的拥有大词汇量的联机中文手写体数据库,是第一款公开的包括高频中文词组联机手写数据的数据库,也是第一款公开的包括多种风格和资料来源的包括多种多样汉语拼音、词组和符号的数据库。它为联机手写中文词组识别和手写拼音识别等研究领域提供了基础的数据。SCUT-COUCH2009包括12个子集数据库,其中Digit是一款多样式的联机无约束的英文字母数据库。Digit数据库包含195套数据样本,每套数据样本类别涵盖10个阿拉伯数字,数据样本总量达到1950个。数据样本想了解更多信息,请参考文章 Lianwen Jin, Yan Gao, Gang Liu, Yunyang Li, Kai Ding. SCUT-COUCH2009----A Comprehensive Online Unconstrained Chinese Handwriting Database and Benchmark Evaluation, International Journal on Document Analysis and Recognition (IJDAR), vol.14, no.1, pp53-56, 2011.注:数据的解压密码及技术支持都由华南理工大学人机智能交互实验室提供(数据真实大小约307K)
版权信息
SCUT-COUCH2009-Digit数据库的版权属于华南理工大学人机智能交互实验室(HCII-LAB)。
参考文献
SCUT-COUCH2009----A Comprehensive Online Unconstrained Chinese Handwriting Database and Benchmark Evaluation
不是我要找的数据?数据堂技术交流群:
好评0%
中评0%
差评0%
前三位评价用户可获得双倍积分
数据咨询
发票保修
价格咨询
支付帮助
配送帮助
其他
咨询内容(140字以内)手写阿拉伯数字练习贴_文档下载_文档资料库
当前位置: >>
手写阿拉伯数字练习贴
手写数字练字贴0 1 2 3 4 5 6 7 8(基本功)9 10 11 12 13年14 15月16日17 18 1901234567891011121314151617181920212223242526272829303132333435363738392021222324252627282930313233343536373839404142434445464748495051525354555657585940414243444546474849505152535455565758596061626364656667686970717273747576777879606162636465666768697071727374757677787980818283848586878889909192939495969798998081828384858687888990919293949596979899手写数字练字贴0 1 2 3 4 5 6 7 8(基本功)9 10 11 12 13年14 15月16日17 18 1901234567891011121314151617181920212223242526272829303132333435363738392021222324252627282930313233343536373839404142434445464748495051525354555657585940414243444546474849505152535455565758596061626364656667686970717273747576777879606162636465666768697071727374757677787980818283848586878889909192939495969798998081828384858687888990919293949596979899数字图像中手写阿拉伯数字的识别技术概览
撰文&周翔&&&
摘要:图像中手写阿拉伯数字的识别和其他模式的识别所采用的方法是多种多样的。本文论述了图像中手写阿拉伯数字的识别过程,并对手写数字识别的三种方法(基于规则的方法、基于统计的方法和基于神经网络的方法)进行了简要介绍和分析,并通过实例重点对基于规则的方法进行了描述。最后是对这些方法的简要评价。
1.&手写数字图像识别简介
手写阿拉伯数字识别是图像内容识别中较为简单的一个应用领域,原因有被识别的模式数较少(只有0到9,10个阿拉伯数字)、阿拉伯数字笔画少并且简单等。手写阿拉伯数字的识别采用的方法相对于人脸识别、汉字识别等应用领域来说可以采用更为灵活的方法,例如基于规则的方法、基于有限状态自动机的方法、基于统计的方法和基于神经网络的方法等。目前比较流行的方法是基于神经网络的方法和基于统计的方法,但无论使用哪种方法,也需要通过基本的图像处理技术来对图像进行预处理,才能获得这些方法的输入信息。所以,本文的开始部分先对手写阿拉伯数字识别的整个处理流程进行论述,而这个流程也可以用于图像中其他模式的识别。当然这个处理流程也不是唯一的,可以根据不同的模式识别应用场景进行与之不同的预处理流程。
2.&手写数字图像识别的主要流程
在本文中,笔者在对图像进行分析前,先对图像进行了以下处理操作。
第一步:对源图像进行黑白二值化处理,如图1。
&&& &&& 图1:源图像(左)和处理后的图像(右)
第二步:对第一步处理后的图像进行形态学图像处理中的开运算,然后再进行闭运算(如图2),先进行开运算的目的是去除图像中的离散黑色像素点,再进行闭运算可以填补手写数字中的裂缝。为了突出变换前后的区别,图2中将源图像中的一部分放大显示,可以看出,经过处理,数字7上面横线中的空虚白色像素被黑色像素填实。
&&&&&& &&& 图2:进行闭操作前的二值图像(左)和经过闭操作后的二值图像(右)
第三步:为了提取出图像中的每一个数字,可用泛洪(FloodFill)算法,从数字上的某个像素开始对数字进行填充,也可以按从左到右、从上到下的顺序扫描图像,找到一个黑色的像素开始填充,当填充结束时,所得到的填充区域就是图中某个手写阿拉伯数字的图像区域,这时,得到这个阿拉伯数字图像区域中像素坐标点对的集合,如图3所示。
&&& 图3:对第二步处理后的图像中的某个像素进行泛洪填充提取出的数字5的图像
第四步:通过第三步得到的某个数字的像素坐标点对的集合,通过骨架提取算法(见参考文献3)提取出手写数字的骨架,再将其骨架图像映射到某个8&8的0/1矩阵,矩阵中值为1的点表示手写数字骨架经过的矩阵中的点,0表示数字的背景,要求数字图像的每一行或每一列都至少有一个值为1,如图4所示。
&&&& &&& 图4:数字5的骨架(左)和映射到8&8矩阵中的情况(图中灰色表示1,白色表示0)
可以想象出,矩阵的行列数越大,表示的骨架越精确,但对于手写阿拉伯数字的识别来说,取8&8的矩阵就足够了。如果要进行汉字手写体的识别,一般需要用64&64的矩阵或者128&128的矩阵。
第五步:对8&8的0/1矩阵进行内容分析。其中分析的方法主要有基于规则的方法、基于统计的方法和基于神经网络的方法,这三种方法将在本文的第3、4、5部分进行介绍。通过这些方法可以识别8&8的0/1矩阵中的数字,然后输出结果,转向第三步对图像中的其他数字进行识别。
3.&基于规则的方法
基于规则的方法主要是根据0/1矩阵的特征对矩阵所描述的图形表示的内容进行描述。在这里,我采用的是对矩阵的一行为一步进行特征判断。可以事先规定阿拉伯数字在矩阵中靠左上角显示,则有这样的规则:如果矩阵第一行中有两个值为1,而且这两个1之间有大于1个的0,则这个矩阵所表示的数字为4。用规则的方法进行识别时,可以采用规则树的结构进行判断,树的每一层对应矩阵某一行的规则,比如,对于n行矩阵,树的第k层对应矩阵的第k行的规则(1&=k&=n),如图5所示,树中的节点是&规则{满足规则的数字的集合}&的形式。&
图5:规则树
在运行该算法时,程序会从根节点(开始节点)开始根据规则沿着某条分支到达叶节点,这时候算法结束,输出节点集合中的元素。往往这样的集合中的元素个数为1个,也有时候是多个,比如手写体的数字1和7很像,当算法结束时,有可能会输出两个结果。
这个算法的时间复杂度正比于矩阵的行数,在本例中,因为矩阵有8行,则最多需要进行8步判断可以得出识别结果。可见,算法的复杂度与规则树的分叉数无关。而规则分的越细,分叉数越多,对象的区分度越好,搜索过程中对树的遍历深度越少,识别的正确率就越高。可见,定义一系列精密的规则是采用本方法进行模式识别的关键。
当然,也可以每一步按每列的规则进行判断,方法与上面的叙述类似。
4.&基于统计的方法
基于统计的模式识别方法是根据系统已有的统计信息,在当前的实例情况下,取概率最大的一个模式。这里的模式是阿拉伯数字。如果设当前的实例为E,阿拉伯数字为N,则我们要求的是对所有的E,条件概率值P(N|E)最大的一个N。即:
对上式的右端进行分母归一化处理并假设所有阿拉伯数字出现的概率是相等的,则上式可简化为:
也就是要求对于数字N,它的图像是E的概率为最大的那个数字N。当然,对整个图像求概率得到的结果是非常小的,而且求解过程比较困难,我们可以对整个图像进行区域划分,进行粒度计算得出在每个区域中对应的数字出现的概率,并将这些概率值进行平滑处理或放大处理,然后把这些概率值相乘,最后取条件概率最大的一个数字,就是阿拉伯数字的识别结果。
同时,还可以采用隐马尔可夫模型(HMM)的思想(见参考文献2),如果按照在本文第2节中的预处理流程得到的结果,设观察序列是8&8矩阵中的0/1值,状态是阿拉伯数字,可以通过样本进行参数训练,得出HMM的参数,然后通过Viterbi算法得出在已知状态序列(8&8矩阵中的0/1值)的情况下,求出概率最大的状态(即阿拉伯数字,也就是识别结果)。
5.&基于神经网络的方法
神经网络的方法是采用人类大脑神经中学习反馈的思想,通过用户训练得出正确的识别结果。您可以通过网页来查看这种方法的具体实现过程和源代码。
6.&分析与总结
通过上面的分析,我们可以看出,基于规则的方法,相对较为简单,比如手写阿拉伯数字识别等识别对象较少的情况,有比较少的时间复杂度和比较高的识别正确率,这种方法的关键在于规则的定义对模式是否有较高的区分度;这种方法对于比较复杂的情况,则需要一个规则库来保存这些规则,但这时,规则的设计也会变的复杂而且困难。
基于统计的方法需要维护一个具有一定规模的样本库,而且在使用HMM进行数字识别时计算量较大。样本库的规模越大,样本的分布越接近于实际情况,数字识别的正确率越高。在使用基于统计的方法的时候还需要数据平滑的技术来扩大小概率的值。
基于神经网络的方法是当今应用的最广泛的方法,其特点在于样本数可以比较少,神经节点的激励函数的运算与HMM中的概率计算相比较为简单,因此有比较好的运行效率,实现比较简单。但识别的过程需要人的参与(训练),识别的正确率受用户主观因素的影响。
基于有限状态自动机的方法也可以看做是基于规则的方法,单独将这种方法作为数字识别的系统比较少,因为对于复杂的应用,形成的有限状态自动机的拓扑结构往往比较复杂。在比较简单的情况下,如7段码数字识别,将会有较其他基于规则的方法更快的识别效率和更高的准确率。
参考文献:[1]& MICHAEL SIPSER著,张立昂等译,《计算理论导引》,机械工业出版社,2000。[2] 王晓龙,关毅等编,《计算机自然语言处理》,清华大学出版社,2005。[3] R.C.Gonzales等著,阮秋崎等译,《数字图像处理》,电子工业出版社,2002。[4] 王文杰等编,《人工智能原理》,人民邮电出版社,2003。
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:157374次
积分:2310
积分:2310
排名:第5910名
原创:62篇
转载:19篇
评论:57条
(1)(1)(1)(1)(2)(1)(4)(1)(1)(2)(12)(17)(10)(13)(9)(5)已有天涯账号?
这里是所提的问题,您需要登录才能参与回答。
"天涯问答"是天涯社区旗下的问题分享平台。在这里您可以提问,回答感兴趣的问题,分享知识和经历,无论您在何时何地上线都可以访问,此平台完全免费,而且注册非常简单。
哪里有手写体阿拉伯数字字库?
哪里有手写体阿拉伯数字字库?
09-08-21 & 发布
去emule(电驴)上下 资料多得不得了 读写更不用说了 注意:用它程序里的搜索功能搜 用英文输入 arabic
请登录后再发表评论!}

我要回帖

更多关于 阿拉伯数字 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信