基于切分的印刷体维吾尔文单词识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:InsideASPNET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字识别是模式识别应用的一个分支。维吾尔文(简称维文)的识别研究对推动我国多民族信息化的发展和维护民族团结有着重要的意义。相对于汉字、英文以及日文的识别,维文的识别研究起步较晚,相关的研究成果比较少。维文识别包括印刷体和手写体两方面的研究,维文单词的识别可以分为基于切分和基于整词两种方法。本文研究基于切分的印刷体维文单词识别,即先将印刷体维文单词切分成维文字符,再对这些维文字符进行分类识别,最后对识别结果进行后处理操作。本文具体研究内容如下:1.详细介绍了维文OCR识别的研究现状及意义,分析了印刷体维文单词及字符的特点以及识别难点。2.建立印刷体维文字符数据库。通过采集ALKATIP Basma、ALKATIP Jornal、ALKATIPTor等11套字号为初号的常用维文印刷字体建立数据库,其中每套字体包含完整的128个维文字符,共1408个印刷体维文字符样本。该数据库是本文研究工作的重要依据。3.维文属于粘着型拼音文字,将维文单词切分成字符是维文OCR识别中的难点之一。针对维文字符切分这一难点问题,本文在传统基于投影的维文字符切分算法基础上,提出了将连通域标记与垂直投影相结合的切分算法。该算法可以简述为利用连通域标记算法将维文单词中连体段与单立字符区分开,接着采用垂直投影确定连体段的切分点。实验结果显示该算法能有效避免切分后维文字符畸变。此外,本文还提出了改进的印刷体维文单词基线标定算法,实践证明该算法能快速准确地标定出维文单词基线。4.在印刷体维文字符识别过程中,首先本文将连通域标记去噪与数学形态学滤波相结合对维文单词及字符进行预处理,该方法能有效去除维文图像中的孤立噪声点以及消除文字间的断笔现象。此外,针对维文字符中相似字符较多这一现象,如‘’、‘’、‘’,‘’,‘’,‘’、‘’等,本文提取维文字符的方向线素特征和梯度特征,并使用欧氏距离分类器对其进行分类识别。实验结果显示印刷体维文字符识别的前1候选的平均识别率可达到91.26%。最后,本文根据维文单词的拼写规则,采用隐马尔科夫模型对字符的识别结果进行后处理操作,并用实验证明了其有效性。5.开发基于Android的维文手写输入法软件。利用JNI交互编程技术将许亚美博士的手写维文识别系统从PC端移植到Android手机上,并在此基础上开发实现手写和键盘两种输入模式可相互切换的功能。
其他文献
学位
截止至2016年末,我国公路总里程已达到469.63万公里,而一次死亡3人以上事故中,路侧事故约占1/2;北京市和贵州省事故统计显示,路侧事故数占交通事故总数量的1/4,而这些事故导致了2/5
公路平面交叉口是交通事故的多发地段。交通安全评价是衡量交叉口安全状况的重要方法,长期以来研究采用事故统计的方法进行交通安全评价,但是由于事故的生成特点和事故统计管理
数据降维是模式识别、机器学习、数据挖掘等领域的一个关键科学问题。它利用线性或非线性变换将高维空间的数据映射到低维空间,从而便于后续分析。随着数据采集技术、通信技
2019年11月3日,中国第二代民用高分辨率立体测绘"高分七号"卫星在太原卫星发射中心成功发射,星上装载的双线阵相机可以获取0.65m/2.6m地面像元分辨率的后视相机全色/多光谱影像和0.8m地面像元分辨率的前视相机全色影像。文章介绍了卫星的重要光学载荷——双线阵相机的组成、工作原理、关键技术及实现、试验验证等,地面测试和试验验证结果表明相机设计合理,成像品质优异,各项指标满足1︰10 000制