论文部分内容阅读
语音情感识别是人机交互的关键技术之一,它已广泛应用于第三产业、刑事安全、通信业、生物医学、教育及工业等许多领域。而要找到能够有效识别语音情感的分类器模型以及提取能够有效表征语音情感的特征参数是语音情感识别领域所面临的主要问题。基于此,本文在分析传统语音情感识别模型的基础上,提出了一种基于融合的语音情感识别模型,与传统语音情感识别模型相比,基于融合的语音情感识别模型具有较高的平均识别率,而将该识别系统应用于机器宠物系统中则可辅助预防和治疗抑郁症等心理疾病。本论文的主要内容为:1.对国内外典型的情感语音数据库进行深入、客观、全面的综述与比较,并确定了适用于融合算法的由中国科学院自动化研究所录制完成的情感语音库CASIA语音库,同时确定本文主要研究惊奇、平静、伤心和愤怒四类基本情感状态语音。2.对原始情感语音库预处理方法中的采样、量化、预加重、分帧和加窗等方法进行综述,并采用两级判别端点检测算法来有效解决语音信号的端点效应问题。3.综述了短时能量、短时过零率、基频、梅尔频率倒谱系数、共振峰等特征在惊奇、平静、伤心和愤怒四类基本情感状态下的变化情况。提出了一种基于语音信号的第一共振峰变化率、第一共振峰最大值、第一共振峰均值、局部极点个数、发音持续时间、能量均值、能量最大值、基频均值8种特征参数的融合语音情感识别模型,并基于该模型针对不同情况下的语音情感进行识别和分类。试验结果表明,融合语音情感识别模型要比单一识别模型的平均识别率高。