基于中亚多文种文档图像的文种识别技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:lilycasey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球各地目前使用很多种相似的文种。近年来,数字文件处理在办公和图书馆自动化、银行和邮政业务、出版社和通信管理等领域的应用中日益普及。对于能够搜索多语言信息的书面和口头来源工具的需求大大增加,。多文种OCR识别系统的开发已成为亟待解决的问题。在实现多文种OCR系统之前,需要研究多文种文档图像的文种识别,并需供给OCR系统。同时相似文种的识别是模式识别领域内难点。本文主要研究是基于多特征提取的多文种文档图像的文种识别技术。本文主要突出的贡献如下:(1)首先为了验证本算法的有效性和稳定性,建立了不同分辨率的三个多文种文本文档图像数据库,分别有1600幅,2200副(分辨率100dpi)和2200副(分辨率200dpi)纯文本整篇文档图像,包含英,汉,俄,蒙,阿拉伯,藏,维吾尔,土耳其,吉尔吉斯,塔吉克斯和哈萨克斯等共11个文种。(2)实现了基于HSV特征提取与利用BP分类器的多文种文本文档图像的文种识别系统。(3)提取了Tamura特征和由六个特征参数值构成的纹理特征。并且这些特征利用不同的6个分类器进行分类,最后统计识别结果。(4)提出特征加权融合方法并提取融合的纹理特征,确定了适合中亚多文种文本文档图像文种识别的最佳权值。(5)提取了Hu不变矩特征,并利用贝叶斯,欧氏距离,马氏距离和LDA等分类器进行分类识别。(6)最后,提出Hu不变矩特征、Tamura特征与纹理特征进行融合的识别方法,获得了较好的识别结果。以建立的三个数据库基础上获得的最高平均识别率分别为99.38%,95.69%和98.64%。实验结果表明,本文提出的特征能较好的描述文档图像特征,并且它们能够有效的分类识别以上所述的11个文种。尤其是对于中亚相似文种和我国少数民族文种的文本文档图像分类识别方面具有一定的优越性和稳定性。
其他文献
随着GSM网络的不断发展,无线网络的优化越来越受到重视。无线网络的干扰成为了影响网络质量和传输可靠性的重要因素之一,为了能够保证通信网络有效地运转,使得用户之间能够互相
期刊
认知无线电是由软件无线电技术发展而来,是一种智能的无线通信技术,它能够迅速的从主用户(第一用户)捕捉到频谱空洞并加以利用,极大的提高了频谱利用率。认知无线电的核心思
期刊
编者按对于中国电信拆分,在方案出台前就经过了近一年的不休争论,对其利弊仁者见仁、智者见智.现方案终于出台,但拆分对未来电信业发展产生的影响还需进一步观察.到底这项改
在存储测试系统的某些应用场合中,测试的数据为军事或者商业机密,这给传统存储测试系统直接记录明文数据带来挑战,因此迫切需要将测试数据加密后存储。自2002年美国国家标准技术
近年来,网络接入设备成本降低、接入技术多样化,使利用多网络接口实现数据的并行多路传输成为可能,特别是应急通信、视频会议、多方游戏等高带宽需求的业务,促进了并行多路传输的
面孔表情是日常生活中一种重要的非语言交流方式,它蕴含着诸多情绪信息,在社会交往活动中扮演着至关重要的角色。本文使用事件相关电位(event-related potentials,ERPs)技术,
连续相位调制(CPM)是一类包络恒定、相位连续变化的高性能的非线性数字调制体制。由于包络恒定,CPM对信号幅度变化不敏感,所以尤其适合于采用高效非线性放大器的通信系统;同时它
现代雷达经常需要发射宽带甚至超宽带信号,而奈奎斯特(Nyquist)采样定理的限制使得大带宽信号的采样很难实现。基于信号稀疏性的压缩采样(CompressiveSampling,简称CS)理论能够