基于深度学习的蒙古文古籍图像检索技术研究

来源 :内蒙古大学 | 被引量 : 8次 | 上传用户:shulang198851
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多媒体技术飞速发展,越来越多的蒙古文古籍文献被扫描转化为数字图像,以便长久保存。这样做不仅有利于古籍文献的保存,同时也给相关研究人员提供了十分珍贵的研究史料。但是,图像格式的文档并没有保存相关索引信息,无法实现文档全文搜索,间接的制约了蒙古文古籍文献的传播与利用。因此,本文将关注蒙古文的古籍图像检索技术研究,为高效利用蒙古文古籍文献提供便利。在图像检索领域,深度学习(Deep Learning,DL)技术已经在图像检索领域得到广泛应用,众多深度学习经典网络模型被应用到图像特征提取过程中。深度学习过程是通过模拟人脑机制建立多层神经网络并进行数据特征的自动提取过程。卷积神经网络(Convolutional Neural Network,CNN)是深度学习的经典模型之一,由于它的权值共享特性,极大的减少了待学习的自由参数的个数从而提高了学习特征的效率,具有更强的泛化能力。因此,本文将《甘珠尔经》数字图像作为研究对象并使用卷积神经网络模型来提取蒙古文古籍单词图像特征,进而探究基于深度学习的蒙古文古籍图像检索技术。本文所做的具体研究工作如下:(1)针对蒙古文构词特点,本文提出了一种适合于蒙古文古籍单词图像的归一化大小。通过在四种归一化尺寸(分别为28×28、32×32、32×64和32×96)上进行对比,当蒙古文古籍单词图像归一化为32×96时,其检索性能要优于其它三种归一化大小。(2)在深度学习技术框架下,本文提出了一种适合于蒙古文古籍单词图像表示的卷积神经网络模型。在所提出的CNN模型下,每个蒙古文古籍单词图像可被表示成长度相同的特征向量。本文所提出的CNN与LeNet-5、Alex Net、ZFNet、GoogLeNet以及自动编码模型进行了对比,实验结果表明其检索性能优于上述方法。从而证明本文提出的CNN模型在蒙古文古籍单词图像的表示上具有一定的优越性。
其他文献
嵌入式系统是一种专用的计算机系统,通过裁剪、结合软硬件的资源,可以满足用户各项性能指标的要求,包括功能需求、可靠性、成本、能耗、体积等等。在嵌入式系统设备中,有一种
近距离场景下的语音识别已经达到了令人满意的结果,但是由于受到噪声和混响等因素的影响,远距离场景下的语音识别依然具有很大的挑战性。和单路麦克风相比,麦克风阵列波束形
随着存储着海量数据的分布式文件系统的进一步发展,为了满足各种企业、学术机构等组织对数据存取速度的需求,诞生了内存分布式文件系统这一概念。以开源的Alluxio为代表的内
智能手机等移动设备为访问信息和使用计算资源提供了极大的便利,但是,受限于自身的尺寸、大容量电池制造技术的滞后、无线通信网络不稳定等因素,使其越来越无法满足移动用户
近年来,云计算、IPTV和4K/8K高清电视等高速服务的快速发展进一步提高了对于接入网带宽的要求。目前在无源光网络(Passive Optical Network,PON)中,强度调制/直接检测(Intensity
随着DNA微阵列技术、高通量测序技术的不断延伸和迅猛发展,产生了许多的基因表达谱数据、分子相互作用数据、基因组数据。这些数据在研究基因突变、基因识别、基因分型和癌症
当下,计算机技术飞速发展,计算机并发体系结构已成为主流。为使并发体系结构的性能得到充分发挥,多线程编程思想应运而生。但是由于多线程程序运行的不确定性,导致编程人员在
随着汉语学习在世界范围内的推广,汉语教学的学科体系日渐成熟,教学理论日渐丰富,相关研究不断深入细化,课堂活动在汉语教学中的重要性也越来越多地被提及。针对课堂活动的调
作为物联网产业的核心技术,无线传感网络已被应用于生产生活的许多领域。无线传感网络往往被部署于复杂多变或干扰因素诸多的环境中,常会造成感知数据偏离实际,从而导致感知
随着计算机技术突飞猛进式的发展,不管是从硬件还是从软件上,都越来越能满足人们的需求。在计算机技术领域发展中,三维重建越来越成为机器视觉的研究重点,并在地图制图,建筑