论文部分内容阅读
随着社交网络的快速发展,越来越多的社交用户倾向于在社交网站上使用不同媒体形式的内容(如文本、图像、视频等)发表观点和分享经历等。这些用户生成内容通常含有丰富的主观情感信息,只是情感的展现形式不同,因此挖掘大量的用户生成内容具有重大的应用价值。传统的情感分析研究对象以文本内容为主,但是由于社交网络上不同类型的媒体数据急剧增多,研究对象也随之扩展至不同类型的媒体数据上。本文关注社交网络中文本和图像相结合的情感分析研究,其一,利用文本来辅助提升图像的情感分析性能,因为与图像共现的文本信息通常含有丰富的语义知识,可以迁移到图像领域来丰富图像的特征表示;其二,利用图像数据和文本数据的内部关联来提升多模态情感分析的性能,因为图像和对应的文本往往存在语义关联,通过发掘图像和文本特征之间的深层内部关联可以更好地融合图像和文本的特征。 本文的主要研究内容如下: (1)针对图像情感分析中存在的情感鸿沟、情感的主观性等问题,提出一种基于多模态卷积神经网络的深度相关分析的方法,从而构建一个潜在空间。基于潜在空间中生成的领域特有且最大相关的跨领域特征表示,可将文本模态的语义特征迁移融合到视觉模态的特征中形成多模态嵌入空间,从而生成语义增强的视觉特征表示。最后,基于语义增强的视觉特征表示来训练视觉情感分类器。此外,利用多层神经网络深度融合语义增强的视觉特征表示可以获得更好的情感分类效果。 (2)针对图像情感分析中存在的上述(1)中的问题外,还存在大的类内方差问题,提出一种基于多模态深度单重判别性相关分析的方法,从而构建一个潜在空间,在潜在空间中将文本模态的语义信息迁移融合到视觉模态的判别性视觉特征中以形成多模态判别性嵌入空间,将判别性嵌入空间中生成的语义增强的判别性视觉特征表示结合注意力机制网络来训练情感分类器。此外,在视觉模态上利用预训练权重迁移的方法和共同学习图像中层特征中形容词和名词以及相对应图像的共享特征的方法。 (3)针对多模态情感分析研究中存在的割裂开图像和文本的对应关系,而单独地处理图像和文本以及异构模态特征融合以直接拼接为主等问题,提出一种多模态深度多重判别性相关分析的方法来构建图像和文本在特征层次上的最大相关,并使各自形成的特征具有优异的判别能力,然后进一步提出协同注意力机制网络来序列化交互影响最大相关的判别性视觉特征和判别性语义特征,以发掘两者更深层次的内部关联,最后通过神经网络继续融合交互后的视觉和语义的特征用于多模态情感分析。 以上三方面的研究内容,本文均通过分析和实验来验证提出模型的有效性。