基于跨模态技术的图像检索系统的设计与实现

来源 :延边大学 | 被引量 : 0次 | 上传用户:eagleqizha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像文本生成研究是融合自然语言处理和计算机视觉的交叉研究领域,其主要任务是让计算机具有识别、理解图像内容并形成文本描述的能力,具有重要的现实意义,在人机交互、视觉问答、视觉障碍者协助、图像检索等领域具有广泛应用。融合图像与文本的跨模态生成任务可以有效提取不同模态数据特征,完成不同模态数据间的转换,弥补单一模态所提供信息的不足。但图像文本生成技术受图像与文本对齐偏差的制约,影响了生成效果及后续的工作。在此背景下,本课题在图像文本生成和图像检索领域展开研究,结合Word2vec算法与注意力机制,提高生成文本的质量,在此基础上设计并实现基于跨模态技术的图像检索系统。首先,为了建立视觉实体词汇表,在包含105万条语句的图像描述数据集中提取视觉实体词汇。具体做法是:对数据集中每张图像,提取图像对应的多条文本描述中具有视觉实体的共现词,创建基础视觉实体词汇表;利用Word2vec算法计算视觉实体词汇表中词语与图像描述中词语的相似度;通过设定一个合适的阈值筛选出相似词汇,构建并拓展Word2vec视觉实体关键词典。其次,解决传统图像文本生成算法中图像关注区域注意力弥散的问题。采用Word2Vec-Attention的方法,保留图像描述中出现在Word2vec视觉实体词典中的词汇,对数据集进行重新写入,去除注意力关注不到的冗余信息,结合注意力机制对测试集图像生成描述文本。实验结果表示,本文提出的算法在重构的英文数据集上BLEU-1值、BLEU-2值分别提高了4.2%和3%,在重构的中文数据集上BLEU-1值、BLEU-2值和BLEU-3值分别提高了2.9%、1.5%和1.1%,说明本文Word2vec-Attention算法是有效的。最后,设计并实现一个基于跨模态技术的图像检索系统。系统主要有四个模块:图像文本生成模块、文本检索图像模块、图像检索图像模块和图像库自动更新模块。系统采用跨模态深度学习方法,融合基于文本的图像检索技术和基于内容的图像检索技术,以实验数据集为图像检索数据库,结合Lucene检索机制搭建图像检索系统。通过系统性能测试,证明本系统可以实现图像的自动文本描述生成,采用输入文本或上传图像方式进行检索图像,并能将用户上传的图像更新到数据库中实现数据库的自动扩充。
其他文献
在经济全球化的背景下,对外开放势不可挡,国际间的贸易竞争对各个国家的发展来说越来越重要。为了应对复杂多变的全球形势以及更深远的实行对外开放,习近平主席于2013年提出了“一带一路”的建议,“一带一路”倡议所带来的各种促进经济发展的机遇使得各地都积极融入进该倡议中。延边地区地处中俄朝边境地区,特殊的地理优势为其对外开放提供了潜力和条件。同时,延边地区在长吉图试验区和图们江合作开发及振兴东北等的影响下
我国新闻业在新的数字化环境下转型和重组过程中产生的虚假新闻案例已经屡见不鲜。虚假新闻的泛滥会导致严重的社会危害,不仅会对国民的判断产生误导,且带偏舆论导向,对新闻的真实性产生实质性的损害,进而会不断地削弱新闻媒体行业的公信力。在泛信息互联网时代,虚假新闻的泛滥并非我国独有情况,世界各国也存在相同的问题。但是其他国家对于虚假新闻规制有相对完善的理论体系制度和措施,以避免虚假新闻危害新闻媒体行业的环境
控制理论经过数十年的完善与发展,在控制系统中滤除反馈信号的噪声并对信号的导数进行估计逐渐成为了控制领域内极其重要的研究课题。如果直接使用传统的数值差分估计法对受噪声污染的信号的导数进行求取,无疑会放大系统中所含有的噪声,这会对系统的控制精度造成严重的影响,甚至直接导致系统失效。随着研究的逐步深入,对于信号中的噪声滤除问题,使用不同的滤波器滤除信号中的噪声成为人们普遍认可的解决方案。其中,线性滤波器
学位
随着图像编辑软件技术的成熟,使得图像篡改操作简单,可以制作出逼真的图像合成图,达到以假乱真的效果。但是有些被恶意篡改虚假照片却会成为攻击他人的一种手段,误导公众舆论导向,甚至给国家带来一定的危害。而图像拼接检测技术可对图像的真实性进行鉴别,在一定程度上打击虚假照片的传播和制作。它应用在经济,法庭,媒体以及军事领域。图像检测技术在模式识别,目标跟踪,图像取证等多个领域都有所使用。本课题基于深度学习的
在偏微分方程中,抛物型方程是一类含相关物理背景的偏微分方程.抛物型偏微分方程在研究热传导过程、部分扩散现象及电磁场传输等很多问题中有着广泛应用,更有广泛的应用前景.多年来,对常系数抛物型方程的研究已经有很多结果,在工程技术领域中,尤其是在地球物理及材料科学等领域的应用研究受到大家越来越多关注.而对于具有变系数非齐次的偏微分方程的研究,是具有一些的难度的,因为实际问题中的应用相当的广泛,所以借助于数
随着计算机硬件运行能力的逐渐提高,深度学习领域取得了前所未有的突破。越来越多的传统行业为了适应智能时代的需求,选择进军互联网,将产品与智能融合。当前,在车辆无人驾驶与辅助驾驶领域,得益于深度学习技术在图像处理方面的卓越性能,深度学习算法被广泛应用,它能够迅速的判别出现在道路上的有关突发状况,帮助驾驶员做出反应,极大地降低民众的生命财产损失。交通标志自动识别便是在此背景下应运而生,它是实现车辆在道路
目的:了解延边州基层全科医生培训现状,探讨培养全科医生综合素质的培训方式。方法:采取自制调查问卷的方法,对延边州8个县级行政区的209位基层全科医生进行调查,内容包括基本信息,培训情况、培训对实践水平和工作的效果评价、培训的理论知识和培训方式需求、健康管理和公共卫生类技能培训的需求。采用一般性描述统计、Mann-Whitney(U)检验,卡方检验,P<0.05有统计学差异。结果:1.参加规培和转岗
无人机航拍目标检测是计算机视觉领域的热门研究方向,相关技术可以广泛地应用于城市建设的各个领域。相比于地面检测,航拍目标检测具有很多优点,如航拍视野广、监测范围大、空中遮挡少、航拍成本低以及适应于多种环境等,可用于交通流量监测、大型集会巡查、故障检测等场所。但航拍图像具有背景复杂、物体分布密集、尺度变化大等特点,会对检测精度造成影响。基于以上的特点,本文在现有目标检测技术的理论基础上进行研究,提出了
在日常生活和出游旅行中,交通拥堵所带来的影响是不可忽视的。对于上下班的人们来说,提前了解早晚高峰的交通拥堵情况,可以有效避免因迟到而影响工作效率的情况;而对于出行旅游的人们来说,一旦遇到拥堵的情况,不仅影响出游的心情,而且极易引发交通事故,带来不必要的损失。因此,实时准确的交通流量预测可以提供路况信息,为人们的出行提供很多便利,同时也有助于交通管理部门更好地管理交通情况。交通流量预测是智能交通系统