论文部分内容阅读
迄今为止,语音识别系统的性能得到了很大提高.然而,当识别环境和训练环境失配时,其识别性能会急剧下降.提高语音识别系统的鲁棒性是决定其能否实用的关键因素之一,是目前语音识别系统需要迫切解决的关键问题.本文从语音信号抗噪声特征参数提取算法和HMM声学模型自适应算法两个方面着手,对基于HMM语音识别系统的抗噪声特性进行了研究,同时对基于听觉特性的语音增强算法进行了初步研究.提出了一种在加性噪声环境下具有良好抗噪性的语音特征参数,称为DAS-WLPCC倒谱系数,该参数充分利用了自相关函数序列的动态信息,利用频率规整的LPC分析近似人耳听觉感知特性,从而使得该参数具有良好的抗噪声性能.实验结果表明相对于常规的特征参数,该参数在各种噪声的不同信噪比情况下,语音识别系统的误识率都有显著地降低.针对加性噪声和卷积噪声的影响,本论文提出了一种对加性噪声和卷积噪声均有效的抗噪声语音特征参数,首先根据噪声频谱比语音信号的频谱变化更慢的特点,引入了频谱差分法,消除加性噪声的影响,然后在倒谱域进行归一化处理,消除卷积噪声的影响.实验结果表明在加性噪声环境下,该参数与DAS-WLPCC识别性能相当,且优于MFCC,但当存在卷积噪声时,其识别性能明显优于DAS-WLPCC和MFCC.模型自适应算法是解决识别环境和训练环境失配的有效方法.本论文对模型自适应算法在抗噪声语音识别中的应用进行了深入研究,提出了一种基于最大后验非线性变换的模型自适应算法,称为MAPNT算法,并给出了变换参数的重估公式.最后对MAPNT算法、MLLR等算法进行了的实验比较.实验结果表明仅需少量自适应数据的情况下,该算法就可以明显地提高系统的识别性能,其性能优于MLLR等算法.对语音增强算法进行了初步的研究,提出了一种基于听觉掩蔽效应的语音增强算法,该算法克服了常规的谱减法残留的"音乐噪声"大的缺点,使得增强语音在信噪比和残留的"音乐噪声"之间得到较好的折衷,有效地降低了增强后的语音中残留的"音乐噪声",提高了增强语音的听觉效果.