论文部分内容阅读
在人们的日常交互中,情感往往扮演着非常重要的角色,帮助人们理解彼此的心理状态和行为。同样,情感信息对于维持人类和机器之间的长期交互至关重要。自动语音情感识别早已被研究人员用作桥接人类和计算机之间沟通鸿沟的一种方法。在传统的语音情感识别方法中,在同一个数据集中训练和测试的语音情感识别方法虽然已经被证明是有效的,但当它们被应用到训练集以外的数据集时往往不尽如人意。由于从不同的设备或环境下采集的语音数据在语言、情感表现方式(例如是表演的、诱发的、自发的)、标记准则等方面存在很大的差异,此时训练数据和测试数据就具有不同的数据分布,传统的语音情感识别方法已经不能很好地解决这个问题。迁移学习,作为一种用于解决数据分布不一致的学习方法,早已被广泛应用于语音识别、图像处理、视频分析等领域。本文基于迁移学习技术对多语言和跨语料库语音情感识别方法进行了研究,具体研究内容如下:(1)提出基于多任务注意力的多语言语音情感识别方法。针对多语言语音情感识别率低的问题,提出一种基于多任务注意力的多语言语音情感识别方法。通过引入语言种类识别辅助任务,模型在学习不同语言共享情感特征的同时也能学习各语言独有的情感特性,从而提升多语言情感识别模型的泛化能力。在两种语言的维度情感语料库上的实验表明,所提方法相比于基准方法在Valence和Arousal任务上的相对UAR均值分别提升3.66%~5.58%和1.28%~6.51%;在四种语言的离散情感语料库上的实验表明,所提方法的相对UAR均值相比于基准方法提升13.43%~15.75%。因此,提出的方法可以有效地抽取语言相关的情感特征并提升多语言情感识别的性能。(2)提出基于对抗训练的跨语料库语音情感识别方法。针对训练集和测试集分布不一致所导致的跨语料库语音情感识别识别率低的问题,提出一种基于对抗训练的跨语料库语音情感识别方法。在该方法中,通过不同语料库之间的对抗训练能有效地弥补不同域之间的差异,提升模型对域不变情感特征的建模能力。通过引入多头注意力机制,对语音序列中不同位置元素之间的相对依赖关系进行序列建模,增强序列中情感显著部分的情感抽取能力。在两个不同的英语语料库IEMOCAP和MSP-IMPRO上的实验表明,所提出的方法在以IEMOCAP为源域数据、以MSP-IMPRO为目标域数据和在以MSP-IMPRO为源域数据、以IEMOCAP为目标域数据上的相对UAR性能相比于基准方法分别提升了0.91%~12.22%和2.27%~6.89%。因此,在目标域标注缺失的情况下,所提出的跨语料库语音情感识别方法具有更好的域不变情感特征的提取和识别能力。(3)设计并实现基于迁移学习的语音情感识别原型系统。采用Python程序设计语言、PyQt5用户界面设计工具、Keras和PyTorch深度学习框架设计并实现基于迁移学习的语音情感识别原型系统。该系统主要包含声学特征提取与分析模块、基于多任务注意力的多语言语音情感识别模块和基于对抗训练的跨语料库语音情感识别模块三部分。其中,文中提出的多语言语音情感识别方法和跨语料库语音情感识别方法在原型系统中得以实现和验证。通过原型系统,可以直观地展示和验证所提出方法的可用性和有效性。