论文部分内容阅读
语音情感识别指的是通过计算机学习算法,自动由语音判断出说话人的情感状态,主要涉及到语音情感特征参数的提取和情感识别算法。语音情感的自动识别技术在教育、娱乐、医疗等领域都有着广阔的应用前景。本文针对情感语音细节信息,提出了GSWM(Gaussian Spectrally Weighted MFCC)模型空间参数,并针对单一类别的语音特征或者单个分类器识别效果不够理想的问题,提出了多分类器融合语音情感识别的方法。在语音情感特征方面,本文提出了基于线谱权重的SWMFCC(Spectrally WeightedMFCC, SWMFCC)新特征,将具有良好量化和插值特性的LSF(Line SpectrumFrequency)与体现人耳听觉特性的MFCC(Mel-Frequency Cepstral Coefficients)相融合,以双向获取说话人情感表达特性与听者情感感知特性。同时,为了获取更高维的情感细节信息,通过具有较好鲁棒性的高斯混合模型来对该参数建立模型空间,将其扩展为GSWM模型空间参数,以进一步提高情感识别性能。在情感识别方面,不同于特征层融合的传统方法,本文提出了采用D-S(Dempster-Shafer)证据理论的多分类器融合语音情感识别方法,将不同语音情感特征组对应的分类器输出进行融合,以更有效的处理各类特征识别的不确定性。各单分类器选用支持向量机(Support Vector Machine, SVM),分别就韵律类特征、音质类特征以及本文提出的体现情感细节变化的GSWM特征进行情感识别,并运用D-S证据理论对多个单分类器的识别结果进行融合。本文采用柏林情感语料库中的愤怒、高兴、平静、悲伤、恐惧以及厌烦六种情感对GSWM参数及多分类器融合算法进行验证。实验结果表明,本文提出的SWMFCC参数以及GSWM参数均可以有效地表现出语音情感,提高情感识别率,GSWM参数在SVM分类器下正确识别率可达83.75%。经过D-S多分类器融合后,实验结果得到进一步的明显提高,平均识别率达到了90.50%。