采用GSWM参数的多分类器融合语音情感识别

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yangbin0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别指的是通过计算机学习算法,自动由语音判断出说话人的情感状态,主要涉及到语音情感特征参数的提取和情感识别算法。语音情感的自动识别技术在教育、娱乐、医疗等领域都有着广阔的应用前景。本文针对情感语音细节信息,提出了GSWM(Gaussian Spectrally Weighted MFCC)模型空间参数,并针对单一类别的语音特征或者单个分类器识别效果不够理想的问题,提出了多分类器融合语音情感识别的方法。在语音情感特征方面,本文提出了基于线谱权重的SWMFCC(Spectrally WeightedMFCC, SWMFCC)新特征,将具有良好量化和插值特性的LSF(Line SpectrumFrequency)与体现人耳听觉特性的MFCC(Mel-Frequency Cepstral Coefficients)相融合,以双向获取说话人情感表达特性与听者情感感知特性。同时,为了获取更高维的情感细节信息,通过具有较好鲁棒性的高斯混合模型来对该参数建立模型空间,将其扩展为GSWM模型空间参数,以进一步提高情感识别性能。在情感识别方面,不同于特征层融合的传统方法,本文提出了采用D-S(Dempster-Shafer)证据理论的多分类器融合语音情感识别方法,将不同语音情感特征组对应的分类器输出进行融合,以更有效的处理各类特征识别的不确定性。各单分类器选用支持向量机(Support Vector Machine, SVM),分别就韵律类特征、音质类特征以及本文提出的体现情感细节变化的GSWM特征进行情感识别,并运用D-S证据理论对多个单分类器的识别结果进行融合。本文采用柏林情感语料库中的愤怒、高兴、平静、悲伤、恐惧以及厌烦六种情感对GSWM参数及多分类器融合算法进行验证。实验结果表明,本文提出的SWMFCC参数以及GSWM参数均可以有效地表现出语音情感,提高情感识别率,GSWM参数在SVM分类器下正确识别率可达83.75%。经过D-S多分类器融合后,实验结果得到进一步的明显提高,平均识别率达到了90.50%。
其他文献
煤炭是地球上最丰富的化石燃料,其消耗量也在逐年增长,煤炭的燃烧造成二氧化碳排放量增加、酸雨等自然灾害,给人们的生活、健康带来了严重的隐患,我国各界都在探索资源节约与
温室环境下,对于模糊图像、阴影图像和弱光图像的处理一直是图像处理的难点之一,解决这些问题,不仅在科学理论上具有重要意义,在现实应用中也有广阔的市场需求。比如在温室内水分
切换系统作为一类重要的混杂系统,吸引了越来越多的关注。目前,切换系统的状态观测与估计问题是研究该类系统的一个重要方向,一方面由于科技水平及经济制约等原因,系统输出量
针对智慧城市建设,本文结合LED照明技术、物联网技术和云平台技术,设计研发了基于物联网的城市道路智慧照明云管控系统,为城市道路照明节能化、舒适化、智慧化建设提供系统解决
随着社会的迅速发展,控制对象也日趋复杂化,传统的点到点控制已经无法满足日常的生产需要。与此同时,网络技术不断发展、成熟,并且与控制理论相融合形成了适合实际需求的网络控制
在文献综述的基础上,本文研究了在线学习及其在控制中的应用,离线学习及其在辨识中的应用。本文第二章集中于研究一类系统的学习控制,一种周期自适应控制算法被提出来,该方法
电力电子设备的核心技术是电力电子变换器,然而在实际运行时经常会出现一些不规则的奇异现象。20世纪80年代以来对于DC/DC变换器的这些貌似随机的现象才有了比较深入的研究,
激光、结构光和光栅式双目视觉测量已成为近两年常用的三维数字化采集设备。这种设备是利用计算机和摄像机以及辅助装置完成的视觉检测领域,目前,已经广泛的应用到了工业生产中
端元提取技术的发展对超光谱图像快速分析地面物体有着重要的作用。目前,比较流行的端元提取算法大多是基于PC平台的,其优点是易于实现,缺点是提取速度慢,实时性较差,不能满足快速识别地面物体的要求。为了克服以上不足,本设计采用FPGA来实现端元的自动提取。设计的主要工作如下:首先分析了超光谱图像数据的特点,归纳已有超光谱图像端元提取算法的优缺点。通过对比,在已有PPI算法的基础上加以改进,实现快速PPI
沙漠化是中国乃至世界最严重的环境问题之一,对沙漠的治理与维护越来越重要,研究意义深远。由于沙漠化成因复杂,沙漠的环境恶劣,对沙漠进行长期有效地监测相当困难,导致相关的数据