【摘 要】
:
随着智能信息化时代的到来,诸如图片,视频,文本以及音频等不同模态数据在互联网上与日俱增,这些多模态数据以不同的形式描述着生活中复杂纷繁的场景,并为彼此提供了有用的互补信息。不同模态的数据在其原始形态上呈现出明显的异质性,难以直接将它们从语义层面建立关联。因此,需要将不同模态数据映射到共有子空间并减小它们之间的差异性。跨模态表示学习旨在减小不同模态数据在特征层面的差距,建立起模态间的语义联系并扩大模
论文部分内容阅读
随着智能信息化时代的到来,诸如图片,视频,文本以及音频等不同模态数据在互联网上与日俱增,这些多模态数据以不同的形式描述着生活中复杂纷繁的场景,并为彼此提供了有用的互补信息。不同模态的数据在其原始形态上呈现出明显的异质性,难以直接将它们从语义层面建立关联。因此,需要将不同模态数据映射到共有子空间并减小它们之间的差异性。跨模态表示学习旨在减小不同模态数据在特征层面的差距,建立起模态间的语义联系并扩大模态内的类别差异,进而能够将其应用到跨模态检索等多模态机器学习任务中。如今,对比损失推动着表示学习实现了飞速发展。以往的工作中,对比损失一般应用于自监督表示学习领域。由于自监督任务缺少标签,它将由锚样本进行数据增强方式得到的样本视为正样本,并默认数据集中剩下的样本为负样本。然而这些剩下的样本中极有可能出现与锚样本属于相同类别的正样本,从而造成了“假负样本”的现象。当对比损失在特征空间将正样本与“假负样本”进行对比并拉远它们之间的特征距离时,就会获得不良的特征表示。此外,以往的对比损失工作更多关注单一模态的表示学习,而较少将其应用于跨模态表示学习。针对上述两个问题,本文通过引入监督对比损失,提出了一种基于多负例监督对比机制的跨模态表示学习算法(Supervised Contrastive Cross-Modal Representation Learning,SCCMRL),并根据此算法构建了相应的跨模态检索系统,最后结合多模态数据集验证其在跨模态检索任务上的表现。实验结果表明,SCCMRL模型的性能要优于当前主流的跨模态检索模型。具体而言,本文的研究成果如下:1.创造性地将多负例监督对比机制应用于跨模态领域中,不仅避免了自监督表示学习中的“假负样本”现象,而且还实现了跨模态表示学习。2.提出了一种基于多负例监督对比机制的跨模态表示学习算法(SCCMRL)。该算法利用编码器分别获取不同模态的特征表示,并通过监督对比损失将正样本与负样本进行对比,使得具有相同语义的数据在特征空间更加接近,具有不同语义的数据在特征空间更加疏远。此外,SCCMRL还引入了标签损失和中心损失进一步优化所学习到的特征表示。通过三种损失函数的结合,SCCMRL所学习到的跨模态表示兼具模态一致性和语义区分性。3.将SCCMRL应用于跨模态检索任务,并结合不同的多模态数据集实现了跨模态图文检索以及跨模态视听检索。
其他文献
近年来,视频监控在构建信息化、智能化的城镇建设中起着至关重要的作用,行人重识别作为视频监控领域的关键技术,受到工业界与学术界的越来越多的关注。现有的行人重识别的工作大部分聚焦于监督学习,它们假设可以为每一对相机视图提供大量手动标记的匹配对,来学习该相机相对优化的特征表示或匹配度量函数。然而,这种规模的手动标签不仅在现实世界中收集起来成本非常昂贵,而且在许多情况下也是不可行,例如可能没有足够的训练人
随着现代物质水平的丰富,使人们对生活有了更多新的需求。用户不仅满足于产品可以完成某项特定功能,而是对产品有了更高的期待。产品在满足用户基本生理需求和安全需求的基础上,更加追求来自社会中的情感需求,因此情感化设计逐渐成为设计师的关注点。设计师希望通过情感化设计让用户感受到产品的温馨,为用户在使用产品时打造良好的情感体验,同时也能让用户更深刻地理解产品的价值。情感化设计离不开用户的心智,在用户心智与产
在我国城市养老问题日趋严重的背景下,在城市老城区养老院项目的设计前期进行科学合理的选址可以降低后期项目设计、施工、运营的难度,促进养老资源的合理配置。然而,老城区养老需求条件的复杂性、选址影响因素的多样性、选址规划方法的主观性等问题的存在导致养老院选址规划的科学性与准确性较低,一定程度上造成了养老资源的浪费。因此,笔者以提升老城区养老院项目选址规划的科学性为切入点,以Arcgis空间分析系统作为技
随着北斗系统导航定位技术的发展和在各个行业的应用,其对定位解算的精度要求也越来越高,因此如何提高定位精度成为学者和工程人员们研究的热点。伪距定位作为基本定位方法,在民用导航和高精度定位初始位置确定方面发挥重要作用。多路径效应作为影响定位精度的主要因素之一,在城市楼宇密集的地方不易削弱且严重的影响着定位精度。故而针对伪距定位和多路径误差这两个方面,本文主要的研究内容如下:(1)着重分析了导航定位前期
对海量的能耗供给数据进行可视化可以实现对能源供给设备实时产生的能耗数据的各种属性以图形化的方式直观的呈现给用户,为能耗供给数据可视化分析提供有力的保障。随着智慧城市的发展,供给数据变得日益复杂,基于能耗供给数据展示供给的态势信息以及监控数据异常是维护供给过程安全稳定的主要任务。针对现有的可视化系统不能很好的展示供给线路和多维层次信息,本文首先总结了时空数据和能耗供给的可视化技术,然后提出了基于多维
激光雷达是探测大气的一种有效手段,常应用于探测大气气溶胶分布、空气污染物分布、大气成分组成、大气气象参数等场景。激光雷达具有实时性好、时空分辨率高、重复性好等突出优点。为了提升激光雷达的移动性,增加探测范围,车载扫描激光雷达得到更多的重视。根据实际项目需求,本文以某车载大口径扫描激光雷达收发装置的研制为研究内容,论述了该系统的设计理论、设计模型和装调结果。该车载大口径扫描激光雷达收发装置光学系统由
大量的人类知识是以非结构化自然语言文本的形式传递的,因此使机器能够阅读和理解文本具有重要的意义。近年来,随着许多该领域数据集的涌现以及深度学习的进步,机器阅读理解在自然语言处理领域受到了广泛的关注。本文专注于研究基于语境化词嵌入与注意力方法的机器阅读理解模型,探索如何解决许多基线模型存在的准确度不足以及训练和推理速度缓慢的问题,主要研究成果如下:(1)部分经典基线模型无法有效结合上下文信息进行进一
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于
异常检测作为计算机视觉中的一个重要分支,广泛地应用于公共安全、欺骗检测、视频监控等领域中。“异常”数据根据实际情况的变化而有所不同,本文中的异常主要是指预期以外的事件,通常伴随图像模糊、颜色失真、光流突变等。受制于异常数据量较少且分布广泛、标记数据的耗时等问题,结合一分类思想的生成对抗网络模型已成为主流,本文首先介绍当前较为流行的基于重构的异常检测模型,训练时只使用正常数据进行训练,学习到正常数据
技术对于解决视频数据量不断增长所带来的浏览耗时的问题有着重要的意义。视频摘要即对视频的概括,按照生成的摘要形式可以分为静态视频摘要和动态视频摘要。在实际工程应用中,静态视频摘要技术更为常用,因此本文主要研究静态视频摘要算法,旨在通过一定的技术手段去除视频中的冗余信息,并选取视频中最能代表视频内容的关键帧生成简短的摘要。本文分析了现有的视频摘要算法所存在的一些不足之处,然后提出了两种全新的基于多特征