论文部分内容阅读
情感在人类交流中起重要作用,因此在人机交互领域中情感识别具有重要研究意义,使得机器能够感知并识别情感具有重要意义。在情感识别研究中,研究者通过使用不同通道的信息,使用不同的特征,不同的分类器模型去识别情感,并取得不同的识别效果。根据我们日常的生活经验可以发现,语音声音信息和文本内容信息中都包含有丰富的情感信息,其中语音和文本是情感识别中最常用的两个通道。但是根据之前研究分析发现,语音与文本在情感识别中,对于指定的某类情感或某几类情感的识别具有不同的表现。本研究基于此,试图去分析语音与文本在情感识别中的不同表现。本研究的研究目标主要有以下两点:1)分别使用语音和文本进行情感识别,比较语音和文本在情感识别中的不同表现,分析语音和文本中各自在情感识别中对指定情感的倾向性。2)在特征水平上进行特征分析,进一步从根本上分析造成语音和文本在情感识别时的不同表现造成的原因,选择出两通道中各自包含的重要情感特征,为后续研究提供可以参考的特征信息。本研究实验分为两部分:1)语音与文本情感识别实验。分别使用语音和文本特征训练情感识别分类器模型,并通过使用混淆矩阵的方式对各类情感识别结果进行可视化。根据可视化结果比较分析语音和文本在各类情感识别的不同作用与表现。2)语音与文本情感特征分析实验。使用基于注意力机制的LSTM作为特征选择方式,根据注意力矩阵对特征进行选择。分别选取出重要的语音声学特征和重要的文本情感关键词,从根源上分析两通道中包含的情感信息,以及造成上一个实验中情感识别结果的原因。通过对实验结果进行分析发现,实验一从两个角度对语音与文本的情感识别结果进行了比较:1)在离散情感模型中,语音对愤怒和悲伤两类情感的识别表现更好,文本对中性和开心两类情感识别更好。2)在维度情感模型中,语音在激活度中情感识别效果更好,文本在效价度上的情感识别效果更好。在实验二中,通过特征分析再发现:1)根据注意力权重对语音声学特征进行排序发现,F0基频、F2带宽、MFCC等声学特征在情感识别中具有重要的作用。2)根据注意力权重对文本关键词特征进行排序发现,—些本身包含情感的词汇,或修饰情感的形容词,或在情感状态下表现出的感叹词和语气词在文本情感识别中具有重要作用。本研究的结论:语音和文本中确实包含有大量的情感信息,可以有效的进行情感识别。语音和文本中包含的情感信息具有的不同表现形式和作用,在情感识别时具有不同的倾向性。本研究的结论可以有效的解释为何将语音和文本信息融合后情感识别率为何会增加。此外,发现了重要的语音声学情感特征和文本关键词特征,对后续研究中的特征选择具有重要借鉴意义。本文的创新点如下:1)通过使用混淆矩阵对识别结果进行可视化分析,比较语音与文本在情感识别中的不同作用与表现。2)从不同角度对语音与文本识别的表现进行了比较,分别从离散情感模型,维度情感模型,对语音和文本情感识别的表现进行了详细的分析。3)将基于注意力机制的LSTM迁移作为特征选择方式。常见的注意力机制用以选择片段中的重要部分,本文将其引入作为特征选择方式。根据注意力矩阵对特征进行选择排序,并结合之前情感识别表现对特征选择结果进行了分析。