论文部分内容阅读
文字识别是模式识别应用的一个分支。维吾尔文(简称维文)的识别研究对推动我国多民族信息化的发展和维护民族团结有着重要的意义。相对于汉字、英文以及日文的识别,维文的识别研究起步较晚,相关的研究成果比较少。维文识别包括印刷体和手写体两方面的研究,维文单词的识别可以分为基于切分和基于整词两种方法。本文研究基于切分的印刷体维文单词识别,即先将印刷体维文单词切分成维文字符,再对这些维文字符进行分类识别,最后对识别结果进行后处理操作。本文具体研究内容如下:1.详细介绍了维文OCR识别的研究现状及意义,分析了印刷体维文单词及字符的特点以及识别难点。2.建立印刷体维文字符数据库。通过采集ALKATIP Basma、ALKATIP Jornal、ALKATIPTor等11套字号为初号的常用维文印刷字体建立数据库,其中每套字体包含完整的128个维文字符,共1408个印刷体维文字符样本。该数据库是本文研究工作的重要依据。3.维文属于粘着型拼音文字,将维文单词切分成字符是维文OCR识别中的难点之一。针对维文字符切分这一难点问题,本文在传统基于投影的维文字符切分算法基础上,提出了将连通域标记与垂直投影相结合的切分算法。该算法可以简述为利用连通域标记算法将维文单词中连体段与单立字符区分开,接着采用垂直投影确定连体段的切分点。实验结果显示该算法能有效避免切分后维文字符畸变。此外,本文还提出了改进的印刷体维文单词基线标定算法,实践证明该算法能快速准确地标定出维文单词基线。4.在印刷体维文字符识别过程中,首先本文将连通域标记去噪与数学形态学滤波相结合对维文单词及字符进行预处理,该方法能有效去除维文图像中的孤立噪声点以及消除文字间的断笔现象。此外,针对维文字符中相似字符较多这一现象,如‘’、‘’、‘’,‘’,‘’,‘’、‘’等,本文提取维文字符的方向线素特征和梯度特征,并使用欧氏距离分类器对其进行分类识别。实验结果显示印刷体维文字符识别的前1候选的平均识别率可达到91.26%。最后,本文根据维文单词的拼写规则,采用隐马尔科夫模型对字符的识别结果进行后处理操作,并用实验证明了其有效性。5.开发基于Android的维文手写输入法软件。利用JNI交互编程技术将许亚美博士的手写维文识别系统从PC端移植到Android手机上,并在此基础上开发实现手写和键盘两种输入模式可相互切换的功能。