基于纹理特征的中亚印刷体文档图像文种识别研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:etzhenghao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别(OCR)系统可以将来自文档图像的文本信息转换为电子文档。但是,在使用OCR系统进行图文转换之前,必须要确定要处理的文档的文字种类。这一步骤通常都是由人工来完成。但面对大量的文档图像数据,人工识别会大大降低系统的自动化和效率。因此,如何提取不同类型的文档图像的特征,实现文种的自动识别是文档图像分析领域的重要研究课题。本文对中亚多文种文档图像的文种识别进行了研究。根据不同文种文字的笔划特征、空间分布和结构特征不同,进而在文档图像中表现出不同的纹理特征这一特点,提出了基于NSCT的文种识别方法。并且针对相似性文种难以分类和识别的问题,提出了基于融合纹理特征的文种识别方法。本文所做的主要工作如下:1.介绍了文种识别技术的研究历史和发展现状,并对该领域已有成果进行了总结,分析了对于中亚文档图像文种识别技术需要突破的难点和问题。2.建立了两个标准的多文种文档图像库,包括阿拉伯文、俄文、藏文、中文、维吾尔文、英文、蒙古文、吉尔吉斯斯坦文、哈萨克斯坦文、土耳其文。3.提出了一种基于NSCT的文种识别方法。对预处理后的文档图像进行3级NSCT变换,提取由此产生的高频和低频子图的纹理特征,并用不同分类器进行训练和分类。实验结果表明该方法相比于传统的文种识别方法,如基于GLCM、LBP、小波变换等方法具有更好的识别效果。4.提出了一种基于NSCT的融合纹理特征的文种识别方法。分别提取NSCT变换产生的每个子图的GLCM特征和LBP特征,再对得到的高维特征利用PCA进行降维处理得到低维特征。用不同分类器进行训实验,实验结果表明该方法相比于传统的基于单一纹理特征的文种识别方法具有更好的识别效果。5.提出了一种基于NSCT+Tamura的融合纹理特征的文种识别方法。分别提取NSCT变换产生的每个子图的Tamura特征,并用SVM分类器进行训练和分类。实验结果表明该方法相比基于NSCT的文种识别方法具有更好的识别效果。
其他文献
射频识别(Radio Frequency Identification,RFID)技术可应用于物联网(Internet of Things,IoT)领域,在身份识别、物流追踪以及智能传感等方面发挥重要作用,已成为学术界研究
随着信息技术的发展,人们对于超高清视频的需求日渐加深。HEVC作为下一代超高清视频编解码的标准,其具备广泛的应用前景。HEVC是在H.264/AVC的基础上制定产生,与以往编码标准
无线网状网(WMN)是一种多跳、自组织的无线宽带接入网络,具有良好的健壮性,结构灵活和易于部署等特点,以及不依赖于基础设施的特性,广泛应用于应急通信系统和军用的战术通信
随着科技的日新月异及全球化进程的不断推进,各国间政治、经济、文化等领域的交流日益频繁,对科学技术的发展产生了进一步革新的要求,随之对交流效率和质量的需求也进一步提升。针对这些需求,科技翻译就成为了为之架桥铺路的重要一环,以确保中外交流中最直接的一环能够顺利对接。因此,近年来,科技翻译吸引了若干学者和译者的研究与探讨,极大地推动了中国翻译行业的蓬勃发展。此翻译实践报告是译者围绕介绍印度尼西亚地区地质
IP的发展已经很多年,除去IP本身已经存在的价值,其已经被引申为可供多领域开发的文化产品。而对文化产品展示和传播过程中,使用最多的方式还是图片的展示形式,但是由于图片的格局、内容和文化表达都比较局限,使得消费者对展示的产品背后文化不能够完全了解。而VR影像技术的进步和发展,其沉浸感、交互性、主动性的特点,能给现如今产品不同的新创意思路。本文首先探究近几年IP产业商品衍生化、产品化的趋势,并针对消费
制造物联网是物联网技术同制造业深度融合的新型制造模式和服务模式,它可以提升我国制造企业的竞争力和影响力。这种模式在发展过程中仍然存在许多挑战,如在网络传输方面,资
随着数字信息化时代的发展,全球数字信息资源日益庞大,大数据已经渗透到各行各业,成为非常重要的生产因素。由于海量数据的高效处理要求与处理成本之间的矛盾关系,从而产生了
随着腾讯视频、优酷和爱奇艺等视频网站近年来的蓬勃发展,对视频的精确检索、分类以及个性化推荐等需求变得日益迫切起来。目前,对视频的自动分类大多数是根据上传视频的标题
为推进新一轮电力体制改革,中共中央国务院发布了《关于进一步深化电力体制改革的若干意见》,提出多途径培育竞争主体,使用户拥有选择权,因此,提升售电服务质量和用户用能水平是必然要求。新一轮的电力体制改革使得售电侧市场中竞争加剧,这就要求售电主体一方面要挖掘用户负荷特性、把握用户用电需求,另一方面要制定差异化和多样化的价格水平以引导用户行为,实现售电市场份额的稳定和达到优化资源配置的目的。基于未来售电侧
地理学科核心素养一经提出,就成为地理学科教育改革与课程改革的重要内容。如何使得地理学科核心素养这一有机整体得以较好地培育落实,成为高中地理教师需要面对的全新挑战。区域认知的学习进阶框架建构将明确学生在不同阶段应达到的学业水平要求,帮助教师准确把握学生在对应阶段所表现出的关键特征,进而达到课程标准、教学实施与评价目标的一致性实现。该研究以有效促进学生区域认知素养发展为目标,在深入探析区域认知内涵的基