论文部分内容阅读
赋予机器情感计算能力对于实现真正的人工智能是必不可少的,语音是交流最简单快捷的方式,获取语音中所包含的情感信息有助于理解语音所表达的意义,因此语音情感识别成为一项热门话题。在过去的研究中,大部分是基于单一语音数据库进行的,而且已经趋于成熟,但在实际生活应用时,训练集与测试集往往存在语种、语音类型、说话人、环境、文化背景等等各种各样的差异因素,所以出现了跨数据库语音情感识别的研究。本文针对特征提取、识别模型两部分展开工作。传统的情感语音特征提取时假定信号是短时平稳的,但实际中语音信号是随时间变化的,针对于此,本文采用能够较好地处理非线性非平稳信号的变分模态算法分解情感语音信号,将不同频率进行合成再通过伽马通滤波器,求取对数,离散余弦变换之后计算统计参数得到新的情感语音谱特征;考虑到单一特征无法全面表征情感信息,选取了表达语音基本特性的韵律特征、从混沌角度描述语音信息的非线性特征以及本文提出的新的谱特征进行特征级融合,得到全局特征。基于柏林工业大学录制的德语情感数据库、太原理工大学数字音视频研究中心自建的汉语情感数据库、中国科学院自动化所录制的汉语情感数据库三种语音库进行实验,分类器选用人工蜂群优化的核函数极限学习机,将新的情感语音谱特征与韵律特征、非线性特征以及梅尔倒谱系数和伽马通倒谱系数两种传统谱特征的识别作比较,结果表明所提出的新特征是一种有效的情感语音特征,能够良好地区分不同情感。将全局特征与单一特征识别性能对比,实验结果显示融合后的全局特征识别率相较单一特征有所提高,特征级融合使得信息能够互补,同时也存在信息冗余的现象,导致全局特征某些情感的识别率低于单一特征,但总体平均识别率得到了提高。识别模型对于语音情感识别的性能至关重要,本文提出一种复合网络栈式稀疏自编码网络——核函数极限学习机,首先通过栈式稀疏自编码网络对原始特征进行无监督预训练,然后结合数据标签利用反向传播算法有监督微调,重构得到更符合大脑稀疏性且更具有区分情感信息的深度特征,最后采用人工蜂群优化的核函数极限学习机对情感进行识别分类。为了使理论研究应用于实际,本文进行了跨数据库的语音情感识别,选择上述三种语音库,提取各个语音库的全局特征,由于三种语音库共同的情感只有“悲伤”、“愤怒”、“高兴”,所以研究只针对这三类情感,分类器选择浅层学习机器:支持向量机、极限学习机、核函数极限学习机以及复合网络结构:栈式稀疏自编码网络——支持向量机、栈式稀疏自编码网络——极限学习机、栈式稀疏自编码网络——核函数极限学习机,设计了单一数据库、混合数据库、跨数据库三组实验,结果证明了复合网络结构栈式稀疏自编码网络——核函数极限学习机识别性能良好,有效改善了跨库识别率低的问题。