基于视觉语言模型的蒙古文古籍图像检索技术研究

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:zhaiziaiaiai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化技术的发展,在内蒙古自治区,越来越多的蒙古文古籍被转成数字图像,以便长久保存。但是以图像格式保存的古籍文档没有索引信息,无法实现全文检索,因此制约了古籍文献资料的传播与利用。本文关注蒙古文古籍图像检索技术,这为挖掘与利用蒙古文古籍提供便利。在图像检索领域,视觉词袋模型是近年来图像检索中最常使用的模型。然而视觉词袋模型有两个缺陷:一是视觉单词之间缺乏语义信息,这导致人对图像的相似性判别与计算机之间存在差异,也就是著名的"语义鸿沟"问题;二是视觉单词之间相互独立,忽略了相邻视觉单词之间的空间信息。本文针对这两个缺陷,提出了解决方法,具体如下:(1)针对视觉词袋模型中视觉单词之间缺少语义信息的问题,提出了视觉语言模型。首先,将扫描得到的蒙古文《甘珠尔经》图像切割成独立的单词图像。其次,从每个单词图像中提取局部描述子(即:视觉单词),并将单词图像表示成视觉单词的概率分布。其中,平滑策略被用于处理零概率问题。再次,根据给定的查询单词图像,采用查询似然模型计算查询单词图像与待检索单词图像间的相似度。最终,按照相似度降序可以生成一个单词图像列表,作为检索结果。(2)我们将视觉单词的空间信息和语义信息相结合,提出了空间视觉语言模型用于表示单词图像。首先,将每个单词图像沿着行、列方向划分为多个等大小的子区域。根据蒙古文的书写方式,我们确定了一种适合于蒙古文单词图像的子区域划分方式。其次,在每个子区域中分别构建视觉语言模型。然后,在单词图像匹配过程中,只有对应子区域的视觉语言模型进行相似度计算。最终,将这些子区域间相似度求和得到两个单词图像的相似度。
其他文献
在现代信息社会里,表单是政府和各种企事业单位日常工作中常用的信息载体。传统电子表单普遍存在代码复用率低、开发效率低下、开发周期长、开发成本高等各种常见问题。随着
协同过滤是推荐系统中最流行且最成功的推荐算法。它基于群体智慧的思想,为目标用户选取行为最接近的邻居用户并根据邻居用户的喜好为目标用户进行推荐。协同过滤算法在帮助
伴随着互联网的迅速发展,网络已经成为了消费者反馈观点的主要途径。网络上包括的大量评论信息不仅仅为商家提供了一个信息展示的平台,也为消费者提供了产品使用体验交流的平台
随着互联网技术的快速发展,各种功能强大的图像处理软件的出现,越来越多的非专业人士可以轻而易举的对图像进行修改。图像如果被恶意的篡改并大量使用在新闻媒体等领域,将严重影
随着人类对海洋探索的逐步深入,海洋环境的安全问题也日渐突出。计算机视觉技术的发展为海洋学研究和海上安全防护开辟了一条崭新的途径,海上动目标的检测问题也在国内外掀起
通过对64位Linux操作系统的存储结构进行了研究,编程实现了一个内存分析的工具。从内存数据出发,研究进程链表的结构,页式映射以及空闲页面管理。通过内存数据和工具得到的结
当前,我国农业生产正朝着规模、多样、精确化的方向发展,劳动力成本迅速上升,同时农业劳动力资源也逐渐向其它社会产业转移,并且在不久的将来人口老龄化问题也日渐突出,所以农业机
根据人体的图像或者视频序列自动的提取图像中的人体姿态信息是机器视觉领域的研究热点。利用人体姿态估计方法,可以使得计算机系统根据摄像机系统拍摄的视频信息提取出人体的
交通运输业的发展水平是国家兴旺发达的重要标志之一。近半个世纪以来,交通拥挤、道路阻塞和交通事故等问题越来越严重地困扰着世界各大城市。随着计算机技术、通信技术以及
随着计算机技术、网络技术和信息技术的发展,信息量呈爆炸式增长,我们已经生活在数据时代。在当今高度信息化的社会中,互联网已经成为目前最大的信息系统,其里面的数据具有海量、