印刷体文字的识别研究方法分类介绍
2010-12-06 15:17:57.0 来源:中国中部印刷网 责编:江佳
- 摘要:
- 识别方法是整个系统的核心。用于汉字识别的模式识别方法可以大致分为结构模式识别、统计模式识别及两者的结合。下面分别进行介绍。
(9)特征点特征。早在1957年,Solatron Electronics Group公司发布了第一个利用窥视孔(peephole)方法的OCR系统。其主要思想是利用字符点阵中一些有代表性的黑点(笔划),白点(背景)作为特征来区分不同的字符。后有人又将这种方法运用到汉字识别中,对其中的黑点又增加了属性的描述,如端点、折点、交叉点等。也获得了比较好的效果。其特点是对于内部笔划粘连的字符的识别的适应性较强,直观性好,但是不易表示为矢量形式,不适合作为粗分类的特征,匹配难度大。
当然还有许多种不同的统计特征,诸如图描述法、包含配选法、脱壳透视法、差笔划法等,这里就不一一介绍了。
统计识别与结构识别的结合
结构模式识别与统计模式识别各有优缺点,随着我们对于两种方法认识的深入,这两种方法正在逐渐融合。网格化特征就是这种结合的产物。字符图象被均匀地或非均匀地划分为若干区域,称之为“网格”。在每一个网格内寻找各种特征,如笔划点与背景点的比例,交叉点、笔划端点的个数,细化后的笔划的长度、网格部分的笔划密度等等。特征的统计以网格为单位,即使个别点的统计有误差也不会造成大的影响,增强了特征的抗干扰性。这种方法正得到日益广泛的应用。
人工神经网络
人工神经网络(Artificial Neural Network,以下称ANN)是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件-神经元相互连接成的自适应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善,我们无法确定ANN的工作方式是否与人脑神经元的运作方式相同,但是ANN正在吸引着越来越多的注意力。
ANN中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却可以非常复杂,我们从而可以通过调整神经元间的连接系数完成分类、识别等复杂的功能。ANN还具有一定的自适应的学习与组织能力,组成网络的各个“细胞”可以并行工作,并可以通过调整“细胞”间的连接系数完成分类、识别等复杂的功能。这是冯·诺依曼的计算机无法做到的。
ANN可以作为单纯的分类器(不包含特征提取,选择),也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符的图象点阵直接作为神经网络的输入。不同于传统的模式识别方法,在这种情况下,神经网络所“提取”的特征并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意义上来说,ANN提供了一种“字符自动识别”的可能性。此外,ANN分类器是一种非线性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供了一种可能的解决方式。
目前,在对于象汉字识别这样超多类的分类问题,ANN的规模会很大,结构也很复杂,现在还远未达到实用的程度。其中的原因很多,主要的原因还在于我们对人脑的工作方式以及ANN本身的许多问题还没有找到完美的答案。
【点击查看更多精彩内容】
相关新闻:
塑胶记忆印刷体预计2010年可望进入市场
红楼梦印刷体祖本212.8万元人民币成交(图)
全国首部印刷体“工尺谱”出版发行
- 关于我们|联系方式|诚聘英才|帮助中心|意见反馈|版权声明|媒体秀|渠道代理
- 沪ICP备18018458号-3法律支持:上海市富兰德林律师事务所
- Copyright © 2019上海印搜文化传媒股份有限公司 电话:18816622098