删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于多尺度梯度及深度神经网络的汉字识别

本站小编 Free考研考试/2021-12-25

汉字识别技术的研究是社会科技发展的关键因素.在高度信息化的时代,如何让计算机高效地识别出如此之多的汉字,特别是印刷体汉字信息,是汉字识别领域的重要问题.印刷体汉字识别有着很高的实用价值,在中文信息处理、文本行识别和自动化办公等领域都有重大的理论意义和应用价值.印刷体汉字识别最早可追溯到20世纪60年代,IBM公司的Casey和Nagy利用简单模板匹配法识别出1000个印刷体汉字[1].20世纪70年代初,日本研究员也开始研究汉字识别技术并成功研制出能识别2000~4000个印刷体汉字和特定手写体汉字的设备.中国的光学字符识别(OCR,Optical Character Recognition)研究起源于20世纪70年代末,主要针对数字、字母和符号的识别.20世纪80年代末,中国已在文字识别领域上取得了丰硕的成果,在汉字建模和识别方法上都有所创新,OCR产品开始走向市场[2].如今人工智能技术飞速发展,机器学习与模式识别等领域出现了很多新的成就和突破,如神经网络、自然语言处理等.如何吸取这些先进的技术,把他们更好地运用到文字识别中,是一个需要长期研究和努力的方向[3].
特征提取和选择是汉字识别的关键.随着汉字分类技术研究的深入,文字的特征表达和描述已经取得了长足的发展.总体上汉字特征分为统计特征和结构特征.统计特征建立在二值或灰度点阵图像之上,它将点阵图像从整体上进行处理,在较高的层次上进行统计,如全局变换特征和笔画穿透数特征.这类特征易于提取且往往具有良好的鲁棒性和较好的抗噪声能力,但对局部信息的敏感度不够,区分相似字的能力较差.结构特征则是字符的本质特征.它描述了字符的拓扑结构,对字体变形影响较小,对相似字的区分效果好,如汉字特征点特征,但这类特征易受噪声等干扰.为更好地结合各自的优点,本文采用一种适用于汉字分类的特征描述子,通过多尺度滑动窗的方式提取文字的全局特征和局部特征.滑动窗的思想由法国研究员Dalal和Triggs在静态图像和视频行人检测问题上提出,利用滑动窗口技术计算图像局部区域的梯度方向直方图来构成特征,对图像几何和光学的变形都能保持很好的不变性[4].
神经网络(ANN)是人类在对其大脑神经网络认识理解的基础上构造的能够实现自动信息处理的机器系统[5].由于其具有有效的学习、模仿人脑智能等方面的能力而广泛地被应用于模式识别、图像处理等领域.文字识别是一个模拟人类认知过程的问题,因此,将神经网络应用于文字识别一直是体现神经网络性能的一个重要应用领域[6, 7, 8].本文使用一个5层的深度神经网络模型对提取好的特征进行分类识别,同时使用Dropout技术防止训练过拟合,提高神经网络的泛化能力.
1 文字特征提取特征提取是印刷体汉字识别系统最为关键的环节之一.为了在得到文字的拓扑结构信息的同时又具有较好的抗噪性,本节介绍一种基于多尺度滑动窗的方式提取文字的梯度方向信息,使用尺度可伸缩的滑动窗对图像进行分割,在每个滑动窗内采用梯度直方图的方式进行表达,最后把所有滑动窗内的特征描述子按一定的权重大小联合起来形成最后的特征矢量的方法.这种特征提取方法不仅计算代价低,而且引入了空间位置信息,可以有效获取汉字的全局特征和局部分块特征.
1.1 梯度信息为了获取文字的梯度方向直方图,首先需要计算图像每个像素的梯度大小和方向,捕捉文字的大致轮廓.本文利用5×5的高斯梯度算子计算原图像梯度,并统计12个不同方向的梯度大小.图 1表示“阿”字的梯度幅值信息,通过梯度的幅值可以捕捉文字的轮廓和纹理.图 2显示了“阿”字的梯度方向分布信息,不同的颜色代表不同的梯度方向.因此,文字的梯度为汉字分类提供了一个非常有效的鉴别信息.
1.2 多尺度梯度直方图为了尽可能多地获取文字整体的轮廓纹理信息,同时提取局部的分块特征,提高对相似字的区分效果,采用多尺度滑动窗的方式提取文字梯度信息.多尺度滑动窗示意图如图 3所示,从中可见,有3种尺度大小分别为16×16,32×32,48×48的红色矩形窗,利用滑动窗提取图像不同区域的梯度信息,然后统计不同区域的梯度方向,形成梯度方向直方图,最后把不同尺度的直方图按照一定的权重比例级联起来,形成特征矢量.
图 1 梯度幅值可视化Fig. 1 Visualization of gradient magnitudes
图选项


图 2 梯度方向可视化Fig. 2 Visualization of gradient directions
图选项


图 3 多尺度滑动窗示意图Fig. 3 Multi-scale sliding windows
图选项


由于滑动窗在滑动的过程中以一定的步长进行移动,因此,窗与窗之间存在交叠(overlap).滑动窗之间的交叠示意图如图 4所示,从中可见,红色虚线区域部分就是由于选取的步长小于滑动窗的宽度而产生的.交叠区域的特征将会以不同结果多次出现在最后的特征向量中.这种重叠机制往往可以改善特征的性能,但同时也会增加特征的维度.
图 4 滑动窗之间的交叠示意图Fig. 4 Overlap of the sliding windows
图选项


2 深度神经网络模型神经网络是一种模拟人脑神经元细胞的网络结构,它是由大量简单的神经元相互连接成的自适应非线性动态系统.相比于传统的多层感知器,本文采用整流线性单元(Rectified Linear Units)作为网络的激活函数,用Soft-max函数作为网络的输出,并以交叉熵(Cross-entropy)衡量训练的损失.使用经典的随机梯度下降(SGD)法求解目标函数的最优解,用反向传播BP算法不断调整网络的权值.为了防止训练过拟合,使用Dropout技术,提高网络的泛化能力.[0, 1]或[-1, 1]之间,但这些激活函数在训练时比较慢,在传递的过程中信息丢失较多,识别效果往往不太理想.本文使用一种在受限玻尔兹曼机(RBMs)模型里广泛使用的整流线性单元函数[9]:f(z)=max(z,0)作为网络的传递函数.这种激活函数能使相关的特征信息在多层网络传递过程中得到更大的保留,与传统的Sigmoid和tanh传递函数相比,计算更简单,训练更快.Sigmoid和ReLU函数如图 5所示.
图 5 Sigmoid和ReLU函数Fig. 5 Sigmoid and ReLU functions
图选项


2.2 Soft-max回归相对于Logistic[10]回归,Soft-max[11]回归是解决多类分类问题的一个有效方法.对于有k类,每类有m个样本的数据集合:

给定一个输入x,对于每一个类别j估算出概率值p(y=j|x),假如用一个k维的输出向量来表示k个概率值,则函数应为:

式中,hθ(x)为模型的输出;i为样本序号;θ为模型参数.是归一化因子,使得所有概率为1.神经网络模型采用交叉熵作为目标代价函数,其形式如下:

根据反向传播BP算法,将训练样本的误差从输出层反向传播到输入层,用随机梯度下降法求解目标函数的最优解,并在传播的过程中不断调整网络的权值,实现训练.
2.3 Dropout技术Dropout是Hinton教授在深度学习领域里提出来的一个重要技巧,其思想主要是在模型训练时随机让网络某些隐含层节点输出值为零,这种如同在图像中加入噪声的方式能防止模型在训练过程中出现过拟合,提高神经网络的泛化能力[12, 13, 14].对于每次输进来的样本,由于其Dropout的随机性,每个样本对应的网络结构都不相同,这些不同的网络结构同时又共享隐含节点的权值,使得不同的样本对应不同的模型.本文对输入层和所有的隐藏层都采用了Dropout.Dropout如图 6所示,从中可见,深色的神经元表示被随机选为Dropout的节点单位.
图 6 Dropout示意图Fig. 6 Illustration of Dropout
图选项


3 实 验实验使用了一个5层的深度神经网络作为模型分类器.由于数据规模大,网络参数众多,训练过程比较缓慢,对此借用CUDAMat[15]矩阵库,使用GPU进行加速,对国标一级3755个印刷体共375500个汉字进行测试.
3.1 数 据 库实验数据共有100套字,包含宋体、楷体、黑体、钢笔体和圆体等各种字体.每套字有3755个样本.随机选70套作为训练,10套做校正,20套做测试.“阿”字的100套不同风格的字体如图 7所示.
图 7 “阿”字的100套字Fig. 7 One hundred fonts of “阿”
图选项


3.2 特征性能对比为比较本文多尺度滑动窗梯度特征跟其他特征之间的性能差异,选用另外6种常用的特征如局部二值模式(LBP,Local Binary Pattern)[16, 17]、GIST[18]、梯度方向直方图(HOG,Histogram of Oriented Gradient)、灰度特征、梯度特征和卷积神经网络(CNN,Convolutional Neural Netuorks)自学习出来的特征进行对比评估.LBP特征不具有旋转和尺度不变性,但对于局部亮度的变化比较敏感,是一种直方图类型的纹理特征.GIST是利用不同方向和空间分辨率的Gabor滤波器对图像采样滤波的特征.HOG是一种全局特征,通过统计像素梯度方向直方图获得矢量描述.灰度特征则直接把图像的像素灰度值作为特征矢量进行输入.八方向梯度特征更多应用在文字上,把汉字点阵图像按8个方向进行分解.卷积神经网络是一种常用的特征学习方法,能从大量的底层数据中获得有效的特征表示.实验采用包含2层卷积层,2层聚合层和1层全连接层的网络结构进行特征自学习.特征对比实验数据如表 1所示.
表 1特征对比实验 Table 1 Experiments of different features
特征识别率/%时间/min
灰度86.26647.30
LBP87.51346.64
GIST92.75457.67
CNN自学习特征93.368462.857
HOG94.50146.19
梯度95.15745.35
本文梯度特征98.36147.04

表选项


由表 1看出,本文的多尺度滑动窗梯度特征效果更好.相比于一般的梯度特征,虽然也有较高的识别率95.157%,但基于多尺度的特征融合了文字更多的梯度信息,因此,其识别率更高,更有利于文字的识别分类.由于手动提取的特征其参数已经预先固定,训练过程只需微调连接层的权重,故其运行时间较快,复杂度较低.而卷积神经网络由于卷积层和聚合层的存在,在训练过程中需要不断对卷积和聚合模板的参数和权重进行调节,因此,其复杂度更高,运行时间更长.
3.3 Dropout实验下面采用本文提出的多尺度梯度特征在5层深度神经网络结构下对不同的Dropout率进行测试.为公平对比,统一对所有的输入层和隐藏层进行Dropout.实验结果如表 2所示.
表 2 不同Dropout率效果 Table 2 Results of different Dropout rates
Dropout率训练集识别率/%测试集识别率/%
099.99896.810
0.0599.96097.373
0.1099.84797.668
0.1599.65797.929
0.2099.34198.012
0.2598.87198.229
0.3098.12198.292
0.4095.24198.361

表选项


由表 2可知,当Dropout率为0时,训练集识别率接近100%,但测试集的识别率只有96.810%,说明此时网络在训练过程中已出现过拟合.随着Dropout率的不断增加,训练识别率逐渐降低,但测试识别率却不断上升,因此,网络的推广能力越来越强.当Dropout率为0.40时,虽然训练集的识别率只有95.241%,但此时的测试集的识别率达到最高,为98.361%.实验表明,Dropout技术在一定程度上可以防止网络出现过拟合,提高神经网络的泛化能力.
同时本文还将探究在不同的网络层上进行Dropout的效果.以下实验使用0.40作为Dropout率,数据如表 3所示.
表 3 不同Dropout层的结果 Table 3 Results of different Dropout layers
Dropout层训练识别率/%测试错误率/%
99.9983.19
输入层99.6432.32
隐藏层98.6952.03
输入层+隐藏层95.2411.64

表选项


当同时对输入层和所有的隐藏层进行Dropout时,效果比仅仅在输入层或仅仅在隐藏层Dropout时要好,相比于没有Dropout的情况,系统的错误率更是下降了48.589%.为了最大限度地优化网络的泛化性能,本文将对输入层和所有的隐藏层采用Dropout.
最后为验证系统的鲁棒性,本文共做了7组试验.每组都选用不同的70套训练样本、10套校验样本和20套测试样本.
多组实验结果如表 4所示,从中可见,多组实验后系统平均识别率为98.292%,标准差几乎接近零,可见本文的印刷体识别系统有很高的准确率的同时具备很强的鲁棒性.
表 4 多组对比实验 Table 4 Comparison of multiple experiments
组数识别率/%
第1组98.361
第2组98.294
第3组98.177
第4组98.208
第5组98.360
第6组98.336
第7组98.310
均值98.292
标准差0.06753

表选项


4 结 论采用了一种基于多尺度滑动窗的方法提取文字的梯度信息,并结合深度神经网络对印刷体汉字进行分类识别.实验结果表明:
1) 本文介绍的多尺度滑动窗梯度直方图特征相比于其他特征,有更好的分类效果.
2) 同时在神经网络的输入层和隐藏层使用Dropout技术,防止了网络训练出现过拟合,增强深度神经网络的泛化性能.
3) 通过选用不同的训练集和测试集进行试验,证明本系统具有较强的鲁棒性.
今后的研究工作将从以下几个方面进行改进和提高:
1) 在特征提取上,尝试选择不同的特征参数,探究不同参数对汉字识别效果的影响,同时实现多种有效特征的融合,以提高汉字识别准确率.
2) 探究适合文字识别的深度神经网络结构,尝试利用深度学习如深度置信网络或自动编码机等方法去学习更有效的特征.
参考文献
[1] Mori K, Masuda I.Advances in recognition of Chinese characters[C]//Proceedings of the Fifth International Conference on Pattern Recognition.Miami:IEEE Computer Society Press,1980:692-702.
[2] 丁晓青. 汉字识别研究的回顾[J].电子学报,2002,30(9):1364-1368. Ding X Q.Chinese character recognition:a review[J].Journal of Acta Electronica Sinica,2002,30(9):1364-1368(in Chinese).
Cited By in Cnki (169)
[3] 荆涛,王仲. 光学字符识别技术与展望[J].计算机工程,2003,29(2):1-2. Jing T,Wang Z.A survey of optical character recognition[J].Computer Engineering,2003,29(2):1-2(in Chinese).
Cited By in Cnki (116) | Click to display the text
[4] Dalal N, Triggs B.Histograms of oriented gradients for humandetection[C]//IEEE Conference on Computer Vision and Pattern Recognition.San Diego,CA:IEEE Computer Society Press,2005:886-893.
Click to display the text
[5] Islam A, Hasan M R,Rahaman R,et al.Designing ANN using sensitivity & hypothesis correlation testing[C]//Computer and Information Technology.Dhaka:IEEE Computer Society Press,2007:1-6.
Click to display the text
[6] Soulie F F, Viennet E,Lamy B.Multi-modular neural network architectures:applications in optical character and human face recognition[J].International Journal of Pattern Recognition and Artificial Intelligence,1993,7(4):721-755.
Click to display the text
[7] Guyon I. Applications of neural networks to character recognition[J].International Journal of Pattern Recognition and Artificial Intelligence,1991,5(1-2):353-382.
Click to display the text
[8] Chang H D, Wang J F,Kuo S C.A Bayesian neural network for separating similar complex handwritten Chinese characters[J].Pattern Recognition Letters,1994,15(4):403-408.
Click to display the text
[9] Nair V, Hinton G E.Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning.Haifa:International Machine Learning Society,2010:807-814.
Click to display the text
[10] Hosmer Jr D W, Lemeshow S.Applied logistic regression[M].Hoboken:John Wiley & Sons,2004:31-43.
[11] Duan K, Keerthi S S,Chu W,et al.Multi-category classification by soft-max combination of binary classifiers[M].Berlin:Springer-Verlag Berlin Heidelberg,2003:125-134.
[12] Hinton G E, Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing co-adaptation of feature detectors[EB/OL].[2014-04-14].http://arxiv.org/abs/1207.0580.
Click to display the text
[13] Krizhevsky A, Sutskever I,Hinton G E.Image net classification with deep convolutional neural networks[J].Neural Information Processing Systems,2012,25(2):1097-1105.
Click to display the text
[14] Dahl G E, Sainath T N,Hinton G E.Improving deep neural networks for LVCSR using rectified linear units and dropout[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Vancouver,BC:IEEE Computer Society Press,2013:8609-8613.
Click to display the text
[15] Volodymyr M. Cudamat:a CUDA-based matrix class for python.Rep.UTML-TR-2009-004[R].Toronto:University of Toronto,2009.
Click to display the text
[16] Ojala T, Pietikäinen M,Harwood D.Performance evaluation of texturemeasures with classification based on Kullback discrimination of distributions[C]//International Conference on Pattern Recognition.Jerusalem,Israel:IEEE Computer Society Press,1994:582-585.
Click to display the text
[17] Ojala T, Pietikäinen M,Harwood D.A comparative study of texture measures with classification based on featured distributions[J].Pattern Recognition,1996,29(1):51-59.
Click to display the text
[18] Siagian C, Itti L.Gist:a mobile robotics application of context-based vision in outdoor environment[C]//Computer Vision and Pattern Recognition-Workshops.San Diego,CA:IEEE Computer Society Press,2005:88.
Click to display the text


相关话题/网络 文字 信息 实验 图像

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于MSER的无人机图像建筑区域提取
    近年来,随着技术的不断发展,无人机广泛应用在军事和民用领域.建筑区域对于无人机而言,是一类重要的感兴趣目标,一方面对其快速检测,是无人机完成导航、侦察、监测等任务的基础和重要内容;另一方面,无人机在出现故障等紧急情况时,通过对建筑区域进行准确检测并及时规避,从而极大地减少或避免人员伤亡和财产损失.与 ...
    本站小编 Free考研考试 2021-12-25
  • 信息提供下的公交管制策略
    随着IT技术的快速发展,公共交通运行的实时信息往往能够帮助乘客更好地规划出行,这些信息包括时刻表、车次计划的变更、预计的延迟等.但由于个体的差异,每位乘客获取公交信息的能力是不同的,有的乘客能够利用信息计划出行,降低站台等待时间成本,使得总成本降低,而有的乘客则因为不擅于利用信息,使计划成本超过计划 ...
    本站小编 Free考研考试 2021-12-25
  • 综合孔径辐射计偏微分方程近场图像反演算法
    微波辐射计是一种微波无源遥感器,通过接收目标的微波辐射信号来获取目标的亮温信息,具有很好的安全性和隐蔽性,在反恐探测[1]、人体安检[2]等领域具有广泛的应用前景.相比于X-ray,微波成像系统不仅可以检测出隐藏在织物下的金属物品,还可以检测出陶瓷刀具、炸药等危险品,获得更加详尽、准确的信息.为了实 ...
    本站小编 Free考研考试 2021-12-25
  • 基于朴素贝叶斯K近邻的快速图像分类算法
    图像分类是计算机视觉研究中的热点内容之一,在图像标注[1]、多媒体信息检索[2]等领域均有广泛的应用.图像分类技术大致分为以下两大类:基于学习过程的图像分类方法和非参数的图像分类方法.目前,基于学习过程的分类方法仍是图像分类与识别领域内的主流,特别是随着视觉词袋模型(BoVW)[3]的提出与应用,然 ...
    本站小编 Free考研考试 2021-12-25
  • 低噪声风力机翼型设计方法及实验分析
    风能是一种绿色可再生能源,取之不尽,用之不竭,随着风力机的迅速发展与应用,风轮尺寸越来越大,运行过程中产生的噪声也越来越严重,对周围噪声环境的影响也受到人们的广泛关注.按照不同声源风力机噪声可分为机械噪声和气动噪声.由于目前的机械制造水平及技术的不断提高,机械噪声可以较好的控制,而降低风力机的气动噪 ...
    本站小编 Free考研考试 2021-12-25
  • 加速度作用下环路热管工作特性实验
    随着电子技术的不断发展,大功率、高集成度电子设备在航空航天领域获得了越来越广泛的应用,由此产生的大散热量、高局部热流使得电子设备的热管理成为突出的问题[1].传统的冷却技术已难以满足其散热要求,环路热管(LHP)技术为这一问题的解决提供了有效手段[2,3].作为一种高效两相传热装置,环路热管以传输热 ...
    本站小编 Free考研考试 2021-12-25
  • 一种面向弱纹理图像的特征点描述子
    一种面向弱纹理图像的特征点描述子程鹏飞1,周修庄1,唐玲1,魏世民2,高欢11.北京邮电大学2.北京邮电大学自动化学院收稿日期:2021-04-27修回日期:2021-06-24出版日期:2021-12-28发布日期:2021-11-16通讯作者:唐玲E-mail:tangling@bupt.edu ...
    本站小编 Free考研考试 2021-12-25
  • 认知反向散射网络通信容量公平的资源优化
    认知反向散射网络通信容量公平的资源优化高晓娜1,卢光跃1,2,叶迎晖1,昝金枚11.西安邮电大学2.收稿日期:2021-05-23修回日期:2021-07-21出版日期:2021-12-28发布日期:2021-11-16通讯作者:叶迎晖E-mail:connectyyh@126.com基金资助:国家 ...
    本站小编 Free考研考试 2021-12-25
  • 基于S盒的混沌图像加密算法
    基于S盒的混沌图像加密算法张雷1,陈川1,2,谭淇匀3,郝茂鑫1,杨学康11.齐鲁工业大学(山东省科学院),网络空间安全学院2.齐鲁工业大学(山东省科学院),山东省计算中心(国家超级计算济南中心),山东省计算机网络重点实验室3.齐鲁工业大学(山东省科学院)收稿日期:2021-04-08修回日期:20 ...
    本站小编 Free考研考试 2021-12-25
  • 基于样本均衡与特征交互的通信网络故障预测方法
    基于样本均衡与特征交互的通信网络故障预测方法贾珺1,冯春燕2,夏海轮3,张天魁1,李成钢41.北京邮电大学2.北京邮电大学,通信网络综合技术研究所3.北京邮电大学信息与通信工程学院4.中国电信集团系统集成有限责任公司收稿日期:2021-04-01修回日期:2021-10-07出版日期:2021-12 ...
    本站小编 Free考研考试 2021-12-25