论文部分内容阅读
全球各地目前使用很多种相似的文种。近年来,数字文件处理在办公和图书馆自动化、银行和邮政业务、出版社和通信管理等领域的应用中日益普及。对于能够搜索多语言信息的书面和口头来源工具的需求大大增加,。多文种OCR识别系统的开发已成为亟待解决的问题。在实现多文种OCR系统之前,需要研究多文种文档图像的文种识别,并需供给OCR系统。同时相似文种的识别是模式识别领域内难点。本文主要研究是基于多特征提取的多文种文档图像的文种识别技术。本文主要突出的贡献如下:(1)首先为了验证本算法的有效性和稳定性,建立了不同分辨率的三个多文种文本文档图像数据库,分别有1600幅,2200副(分辨率100dpi)和2200副(分辨率200dpi)纯文本整篇文档图像,包含英,汉,俄,蒙,阿拉伯,藏,维吾尔,土耳其,吉尔吉斯,塔吉克斯和哈萨克斯等共11个文种。(2)实现了基于HSV特征提取与利用BP分类器的多文种文本文档图像的文种识别系统。(3)提取了Tamura特征和由六个特征参数值构成的纹理特征。并且这些特征利用不同的6个分类器进行分类,最后统计识别结果。(4)提出特征加权融合方法并提取融合的纹理特征,确定了适合中亚多文种文本文档图像文种识别的最佳权值。(5)提取了Hu不变矩特征,并利用贝叶斯,欧氏距离,马氏距离和LDA等分类器进行分类识别。(6)最后,提出Hu不变矩特征、Tamura特征与纹理特征进行融合的识别方法,获得了较好的识别结果。以建立的三个数据库基础上获得的最高平均识别率分别为99.38%,95.69%和98.64%。实验结果表明,本文提出的特征能较好的描述文档图像特征,并且它们能够有效的分类识别以上所述的11个文种。尤其是对于中亚相似文种和我国少数民族文种的文本文档图像分类识别方面具有一定的优越性和稳定性。