基于对抗网络的跨模态检索方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:quyeliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信和互联网技术的飞速发展,多模态数据急剧增加。海量的多模态数据在方便用户的同时,也对信息检索技术提出了新的挑战。为了更好的满足用户对模态数据检索的需求,同时使计算机具有模拟人脑对海量的多模态数据进行认知、学习以及推理决策的能力,跨模态检索技术应时而生。深度神经网络类似于多层非线性投影,拥有比浅层方法更强的映射能力,可以充分提取不同模态的多阶抽象表示。其中,生成对抗网络能有效拟合多模态数据的分布,更好地学习多模态数据的共同表示。本文在对抗网络的基础上,融合了字典学习、度量学习和对偶子空间的思想,有效捕捉多模态数据的结构信息和语义信息,较好地消除了异构鸿沟和语义鸿沟。本文工作和创新点如下:1.提出一种基于秩约束的语义一致性跨模态字典学习(Semantic Consistency cross-modal Dictionary learning algorithm with rank Constraint,SCDC)方法。该方法将l21范数和秩范数约束引入到字典学习中。随后,我们引入生成对抗机制,提出一种基于字典学习的对抗跨模态检索(Adversarial Cross-Modal Retrieval Based on Dictionary Learning,DLA-CMR)方法。该方法采用字典学习重构出更具判别性特征,同时利用了对抗网络来充分挖掘多模态数据复杂的统计特性。具体地,该方法构造了特征保持器和模态分类器两个对抗者,前者保证了转换特征(投影到共同空间的特征)在保持各自模态固有统计特性的同时具有最大相关性,有效消除了异构鸿沟。后者本质上是一个可以预测转换特征原始模态的二分类器。两者目的相反,不断对抗与提升,最终学习到一个有效跨越异构鸿沟和语义鸿沟的共同空间。2.提出一种基于对抗网络的跨模态对偶子空间学习(cross-modal Dual Subspace learning with Adversarial Network,DSAN)方法。该方法同时考虑了对偶子空间、度量学习和对抗学习。其中,对偶子空间可以有效挖掘不同模态潜在的底层结构信息,并能充分利用模态特定信息;提出一种改进的四元组损失,既考虑了相对距离,也考虑了绝对距离,在一定程度上推开了正负样本的边界,并且引入了难样本采样的思想,有效地减少了模型的复杂度,提高了模型的性能;提出一种模态内限制损失,最大化了最相似跨模态负例和对应的跨模态正例之间的距离。此外,该方法通过对抗学习,使得不同模态的数据在对偶子空间中学习到更好的特征表示,从而有效提高跨模态检索的精度。
其他文献
信息化时代,互联网教育事业蓬勃发展,但教学效果不甚理想,不少问题亟待解决。其中以学生网络学习的参与度低、学习积极性差、持续时间短等问题尤为突出。在此背景下,本研究基
本文研究的是一个图像领域的经典问题――图像检索,该问题在计算机视觉方面的研究以及互联网企业的检索推荐系统中都有重要的应用。本文对比了近年来国内外的工作,并提出自己对这一问题的改进。在这篇文章中,我们提出了一个新的深度学习方法来解决图像检索这一问题,本文有两个主要工作,第一个是提出了一个新的图像检索损失,第二个是提出了一个新的提取图像描述子的卷积神经网络结构。本文的第一个工作的主要思想是将拓展查询这
随着数字经济时代的到来,社会和企业都面临着巨大的变化,为了应对这种变化带来的压力,企业试图采用组织变革、高管团队重组来应对挑战,以完成自我改革。2018年第四季度,苹果公司因为手机市场不景气和过度依赖iPhone给公司带来持续的股价下跌,2019年年初苹果公司试图通过高管团队的重新构建,改变战略,重回鼎盛时期;2018年市场经济疲软,京东主营业务发展不顺利,加上刘强东事件,京东名誉受损,所以京东想
当前随着大型公共活动的日益增多,导致了越来越多的人群集聚,如庆祝活动、音乐会、体育赛事、公众游行等。因此,对密集人群进行有效监管非常必要。在当今的计算机视觉上的领域,想要对大规模的人群进行监督以及管理,本文所研究的人群计数是能够提供相关的计数支持的,针对这方面的研究也是非常积极活跃的。早期算法大多采用传统的检测和回归方法,对由遮挡、透视变形、比例变化和人群分布多样等因素导致的问题,难以有效解决。随
辽朝是契丹人于10世纪初在北迁汉人帮助下建立的政权,实行“以国制治契丹,以汉制待汉人”的“因俗而治”统治政策,对从事畜牧业生产生活的契丹、奚、室韦、乌古、阻卜、党项等民族,采取传统的以部族为基本单位进行统治。根据与辽朝中央政府亲疏关系的差异,诸多部族可以划分为五种类型:诸斡鲁朵与“辽内四部族”、契丹部族、国家控制下非契丹部族、半羁縻半控制部落、羁縻部落,不同类型的部族分布于不同的游牧区域,从事有序
监所巡视检察制度是刑事执行检察的方式之一,该制度于2012年2月由最高人民检察院监所检察部门《意见》首次确立。监所巡视检察制度是具有中国特色的一项刑事执行检察制度,该制度总体运行良好,但是也存在流于形式、检察结果不公开等固有的弊端。本文从规范和实践两个层面对该制度进行分析,梳理总结了确立的背景及取得的重大成绩,分析研究了该制度在运行中存在的问题,提出了完善该制度的具体措施,旨在对我国监所巡视检察制
近些年来,我国不少科研人员套取科研经费案件被曝光引起公众广泛关注。针对该类行为,司法实务部门和理论界学者存在两种截然不同的处理意见,第一种意见认为行为应该做非罪化处理,第二种意见认为应该进行有罪认定。科研经费的性质问题、科研人员是否具有国家工作人员身份以及科研人员在套取经费时是否存在职务便利是正确分析行为性质的争议焦点。单纯的科研活动不属于从事公务,然而纵向科研经费来源于国家或者地方财政拨款,属于
蒙古族自古以来有着立碑纪念自己的祖先以及杰出英雄的传统。留存至今的蒙古文碑刻文献不仅以独特的载体形式保存大量的书法篆刻艺术,也成为了研究当时的经济、政治、军事、文化发展的重要物证,而且对补正前贤的阙失、考订典籍的讹谬等方面有很大助益。在明代,由于佛教在蒙古地区的广泛传播,因此修建寺庙并且大量翻译佛教经典的同时出现了很多记载寺庙修建史、歌颂德高望重的活佛以及施主功德的碑刻文献。因此,本文以明代蒙古文
梁启超将中国传统学术形态按其特征依次划分为先秦诸子学、两汉经学、魏晋玄学、隋唐佛学、宋明理学以及清代考据学六个阶段。清代学术作为中国传统学术的最后形态,其风貌特质与宋明理学可谓迥异。讲求谈心论性并以形而上的主观哲理性思辨为特色的宋明理学,何以在清代被考经证史、以形而下的客观考察为究心所在的考据学所取代,引发着历代学人的思索与解释。从清末民初章太炎、梁启超提出“政治高压”说后,学界以从外缘因素分析考
气体传感器在环境监测、疾病检测、人工智能、石油化工等领域有着广泛的应用。半导体气体传感器因具有灵敏度高、稳定性好、响应速度快等特点,一直是传感器领域的研究热点之一。气敏材料的敏感特性直接影响着气体传感器的性质,目前,除掺杂、修饰等主要方法外,制作异质结也是重要的增敏方式,因而将多种材料复合形成异质结也成为了行业的热点之一。但是,现在的研究普遍集中于纳米异质结的构建,而对大面积宏观异质结的构建及气敏