论文部分内容阅读
随着数字、网络、视觉传播技术的发展,多媒体数据也呈现日益增长的趋势。这些丰富的数据资源为跨模态数据的信息挖掘、理解和分析和等相关研究带来了许多新的挑战。比如,信息检索从过去的单媒体迈向了跨媒体的新时代。此外,多样化的数据和用户多元的需求也催生了很多新兴的跨模态任务,比如视觉问答,模型需要根据一张图像和一个问题,预测出相应的答案;再比如文本到图像生成,模型需要根据一段文本描述来生成高质量的图像。不论是传统的跨模态检索任务,还是新兴的跨模态信息交互和生成任务,从本质上来看,都是不同模态信息的映射与转化。而对不同模态数据高级语义的深入理解,是实现众多跨模态应用的一个先决条件。然而,不同模态数据表现形式不一致,存在于不同的特征空间(称为异构鸿沟)的特点,为跨模态信息的有效匹配、理解和转化带来了很多挑战。因此,有效挖掘不同模态数据的高级语义信息是诸多跨模态应用中亟待解决的重要问题。
针对上述挑战,本文从高级语义信息挖掘的角度出发,探索和实现不同模态信息的高级语义信息的表达,理解与转化。具体来说,本文以跨模态检索(图像(=)文本)、视觉问答(图像+文本→文本)、以及文本到图像生成(文本→图像)这三个典型的跨模态应用入手,研究如何通过挖掘不同模态数据的高级语义信息,来有效地实现跨模态应用中的匹配、交互和生成。
具体来说,本文的主要贡献可以总结为如下几点:
1.提出了基于语义特征解耦的跨模态检索模型,通过先将文本和图像的语义特征从冗余的上下文和模态等信息中分离出来,然后仅利用两者的“高级语义特征"来计算相似度,实现了跨模态数据语义信息的准确匹配。实验结果表明该模型可以过滤掉冗余的上下文和模态信息,学习到高质量的文本和图像的语义特征表达,极大地提高了跨模态检索的准确率。该模型在四个公共基准数据集都实现了目前最好的跨模态检索结果,说明了其通用性和优越性。
2.提出了基于显式注意力监督的视觉问答模型,通过增加显式的注意力监督,视觉问答模型学习到了更准确的注意力权重,并加强了对跨模态交互信息语义的理解,最终提高了其预测性能。实验结果表明了显式的注意力监督在视觉问答任务中的可行性和优越性。
3.提出了基于语义一致性建模的文本到图像生成模型,通过设计和应用“文本→图像→文本”再描述的生成框架,保证了生成的图像能够重新被描述成输入的文本信息,提供了一种显式的跨模态语义一致性的监督。实验结果证明该模型成功实现了不同模态数据的高级语义的有效转化,说明了其在保证生成图像和输入文本之间语义一致性的可行性和有效性。此外,该方法超过了现有的生成方法,建立了新的基准线。
4.提出了基于多层语义信息融合的文本到图像生成模型,通过先将输入文本编码为多个带有不同视觉信息的文本特征向量,然后通过融合这些特征向量中的语义信息去生成图像,保证了生成过程中视觉信息的完整性。实验结果表明该模型不仅保证了语义的高度一致性和视觉逼真度,而且还保证了生成图像的合理性。两个公共基准数据集上的实验结果均表明该模型优于具有代表性的基准方法。
针对上述挑战,本文从高级语义信息挖掘的角度出发,探索和实现不同模态信息的高级语义信息的表达,理解与转化。具体来说,本文以跨模态检索(图像(=)文本)、视觉问答(图像+文本→文本)、以及文本到图像生成(文本→图像)这三个典型的跨模态应用入手,研究如何通过挖掘不同模态数据的高级语义信息,来有效地实现跨模态应用中的匹配、交互和生成。
具体来说,本文的主要贡献可以总结为如下几点:
1.提出了基于语义特征解耦的跨模态检索模型,通过先将文本和图像的语义特征从冗余的上下文和模态等信息中分离出来,然后仅利用两者的“高级语义特征"来计算相似度,实现了跨模态数据语义信息的准确匹配。实验结果表明该模型可以过滤掉冗余的上下文和模态信息,学习到高质量的文本和图像的语义特征表达,极大地提高了跨模态检索的准确率。该模型在四个公共基准数据集都实现了目前最好的跨模态检索结果,说明了其通用性和优越性。
2.提出了基于显式注意力监督的视觉问答模型,通过增加显式的注意力监督,视觉问答模型学习到了更准确的注意力权重,并加强了对跨模态交互信息语义的理解,最终提高了其预测性能。实验结果表明了显式的注意力监督在视觉问答任务中的可行性和优越性。
3.提出了基于语义一致性建模的文本到图像生成模型,通过设计和应用“文本→图像→文本”再描述的生成框架,保证了生成的图像能够重新被描述成输入的文本信息,提供了一种显式的跨模态语义一致性的监督。实验结果证明该模型成功实现了不同模态数据的高级语义的有效转化,说明了其在保证生成图像和输入文本之间语义一致性的可行性和有效性。此外,该方法超过了现有的生成方法,建立了新的基准线。
4.提出了基于多层语义信息融合的文本到图像生成模型,通过先将输入文本编码为多个带有不同视觉信息的文本特征向量,然后通过融合这些特征向量中的语义信息去生成图像,保证了生成过程中视觉信息的完整性。实验结果表明该模型不仅保证了语义的高度一致性和视觉逼真度,而且还保证了生成图像的合理性。两个公共基准数据集上的实验结果均表明该模型优于具有代表性的基准方法。