【摘 要】
:
图像和文本作为信息表示、存储和传播的两大重要媒介,在日常生产和生活中扮演着重要角色。近年来,计算机技术和人工智能的发展加剧了人们对机器感知和推理的需求,特别是对于图像和文本两种数据的理解与匹配,这极大吸引了国内外众多研究者的研究兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务,图文检索任务不仅能有效打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多上层应用的发展(如:跨模态检索、图像标注、
论文部分内容阅读
图像和文本作为信息表示、存储和传播的两大重要媒介,在日常生产和生活中扮演着重要角色。近年来,计算机技术和人工智能的发展加剧了人们对机器感知和推理的需求,特别是对于图像和文本两种数据的理解与匹配,这极大吸引了国内外众多研究者的研究兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务,图文检索任务不仅能有效打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多上层应用的发展(如:跨模态检索、图像标注、视觉问答),因而具有广泛的、深刻的研究意义。图文检索任务聚焦于图像和文本间的相互检索,其发展面临诸多挑战,其中最具代表性的两个挑战为:模态内关系的推理和模态间语义的对齐。前者要求准确地识别模态内部实体间的关系,如“小男孩旁边有一个红色的雪橇”;后者要求对齐不同模态中的语义实体。近年来,针对上述挑战,该领域涌现了众多研究,其大致分为三个类别:基于模态内交互、基于模态间交互和基于混合模态交互。虽然这些方法取得不错的实验效果,但仍存在两个问题:首先,这些方法的模态交互模式是手工设计的,严重依赖于专家经验和实验反馈,这可能导致最优的模态交互模式未被探索到;另外,这些方法均属于静态方法,即所有的数据样本都经过相同且固定的计算流,这会导致计算资源的浪费。为解决上述两个难题,本文提出了一种基于动态模态交互建模的统一化模型,简称为DIME。目前为止,这是用动态机制自动学习交互模式解决图文检索任务的第一个工作,具有较强的开创性和实用性。首先,为完成不同的交互,本学位论文设计了四种不同类型的交互模块:1)整流恒等模块,赋予网络恒等非线性的变换能力;2)模态内推理模块,捕捉上下文信息和语义关系;3)整体-局部引导模块,使用全局语境信息对局部线索的捕捉和建模加以引导,以便对齐不同粒度的跨模态信息;4)模态间精炼模块,通过详尽的跨模态局部语义概念之间的交互构建关键细节信息之间的匹配。此外,本文提出一种稠密连接策略,对这四种模块在宽度和深度两个维度进行连接,进而构成一个完整的路径空间。同时,本文在每个模块内部配置动态路由器,来帮助模型动态地生成依赖于数据的路径。最后,结合语义一致性正则化项和三元组排序损失,本文从对称的两个方向对模型进行端到端的优化。本文在两个基准数据集Flickr30K和MS-COCO上进行了充分的实验,实验结果充分验证了该方法的有效性和先进性。
其他文献
针对跨模态检索任务中图像与文本模态的语义特征复杂度不一致问题,提出了一种局部细粒度对齐与全局特征推理相结合的图文匹配方法。首先将图像和文本特征输入自适应交叉注意网络,该网络在交叉注意机制内设置门控单元,利用文本(图像)模态中的相关语义特征,自适应地引导图像(文本)模态的交叉注意。突出关键的局部对齐特征的同时及时高效地过滤掉冗余的交互信息,从而实现更精准的细粒度对齐。然后利用自适应交叉注意网络输出的
当前已经进入“万物皆媒、智能传播”的智媒体时代,马克思主义文艺理论“化大众”的传统传播机制难以适应新媒体、人工智能和元宇宙平台的智媒体大众化传播趋势。亟待创新马克思主义文艺理论大众化传播机制,包括“大众平权式”传播主体机制,马克思主义文艺观引导智媒体发展的传播目标机制,以及与时俱进的传播实现途径机制。通过立足新时代的文艺活动更新传播内容,以通俗易懂的语言和喜闻乐见的形式传递给人民大众,构建“二元一
延X井区属于致密气项目,为低压集输系统,易造成气井积液甚至水淹完全不能生产。模拟气井不同生产阶段的储层状况、气液流速及排液能力,结合李闽、Turner和Gray模型,分析了气井积液的机制,安装井下节流器能够降低集输压力,防止水合物冰堵,随着储层压力降低,节流器下部易发生积液,需要及时拔出节流器并配合其它排水采气措施生产;速度管能够降低临界携液流速,使气井保持长期稳定生产。现场Y05井应用效果表明,
<正>先前一直和大家聊器材的硬件方面比较多,市场方面的东西聊得比较少,最近又觉得整个吉他市场其实有些降温了,那我正好也有这么一个机会来和大家聊聊我看到的吉他市场是什么样子的。外部环境其实在2020疫情爆发之前,我一直都觉得木吉他尤其偏向指弹的这一块,会有一个非常可观的爆发,
番茄黄化曲叶病毒(tomato yellow leaf curl virus, TYLCV)是一种由烟粉虱传播的单链环状DNA病毒,在田间可与多种病毒发生复合侵染,如番茄褪绿病毒(tomato chlorosis virus, ToCV)等。本文对比了TYLCV单独侵染和TYLCV与ToCV复合侵染对烟粉虱获取和传播TYLCV的影响。结果表明,与取食TYLCV单独侵染的番茄相比,取食复合侵染番茄的
秦岭地区拥有独特的地理位置和优美的自然环境,是我国生物多样性最丰富的地区之一,被称为“中华基因库”。朱鹮作为秦岭四宝之一,是我国一级重点保护动物,也是秦岭生态文化的重要标志。虽然朱鹮保护已取得初步成效,但其与当地经济的发展之间依旧存在着诸多矛盾,需要思考与协调二者之间的关系。以陕西汉中的朱鹮保护为例,通过搜集相关文献、实地走访调查、发放问卷等方式对相关信息进行深入分析,并针对问题提出相应的解决方案
目的 由于留学生教育背景、方法等方面的不同,针对留学生的教育不能仅仅停留在单纯的医学知识输入层面,还应该针对留学生自身及配合疫情背景下短视频平台兴起的特点改进教学方法。本研究借助短视频平台结合病例为引导教学模式来充分提升留学生参与度,提升教学质量。方法 选取2022年3-9月就读于首都医科大学2018级留学生为研究对象,共计100人。将留学生1班(50人)为主要研究对象(实验组),并采用与留学生2
本文利用2008年6月1日到2008年7月30日北京市单站逐日降水资料,从中找出代表降水过程的日期,组成日期序列,选取降水过程日遵循以下几个原则:如果降水只持续1天,则该日即为降水过程日;如果连续降水日不止1天,且这几天的降水量无明显差别或第一天降水量大于后几天降水量,则取第一天为降水过程日;如果连续降水日期不止1天,且这几天的降水量有明显差别,取降水量较大的一天为降水过程日,并采用阈值法来选取反