论文部分内容阅读
情感语音识别与合成技术是当前语音信号处理研究的热点问题,目的是使计算机既能够听懂人类语言所携带的情感成分,又可以说出人类语言,实现人机智能通信,使计算机与人的交流畅通无阻。情感语音识别是语音识别技术的一个新的分支,由于情感本身概念的不确定性及语音中情感特征的模糊性,使得情感语音识别成为一个难点问题。语音合成技术一直以来研究者众多,但是,如何能够构建出一个存储量小,自然度高的合成系统一直是需要重点解决的问题。本文紧紧抓住情感语音识别的难点和语音合成的重点,提出了基于人耳听觉特性模型的情感语音识别特征,并用声门特征对基于人耳听觉的情感语音特征进行了补偿优化;实现了基于隐马尔科夫模型的语音合成系统,在此基础上,对系统合成的语音进行了参数分析和修改,将情感特征加入了合成语音,实现了基于隐马尔科夫模型的情感语音合成。本文的主要工作和创新性成果如下:(1)在深入研究情感理论的基础上,分析了韵律特征在不同情感中的表现,构建了包括“高兴”、“生气”和“中立”三种情感状态,汉语普通话和英语两种语言的TYUT情感语音数据库。通过主观辨听实验和典型特征的分析实验,确定了TYUT情感语音数据库的有效性。(2)将基于人耳听觉特性模型的过零峰值幅度特征用于情感语音识别,并将该特征中用于代表频率与说话速率的过零特征与Teager能量算子中的非线性能量特征有机地结合在一起,提出了一种基于人耳听觉特性模型的新特征——过零最大Teager能量算子特征,新特征在情感语音识别实验中表现出良好的性能。(3)将人的发音模型与听觉模型相结合,通过分析声门特征对人耳听觉模型特征的影响,提出了用声门特征补偿人耳听觉特征的新算法,并将补偿后的新算法用于情感识别实验,得到了较高的识别率。新算法表现出了优良的性能。(4)针对实际交谈中,背景环境复杂的情况,设计了一种混合情感语音数据库的实验,用以检验情感特征的数据库独立性。通过对混合语音数据库实验结果的对比,发现过零最大Teager能量算子特征是本文所有特征中,数据库依赖性最小的特征。(5)为了能够合成出具有不同情感的语句,首先,搭建了基于隐马尔科夫模型的情感语音合成系统,接着对合成出的语句进行了参数修改,最终实现了基于隐马尔科夫模型的情感语音合成,初步得到了合成的情感语音。