论文部分内容阅读
随着语音识别技术日益成熟,语音识别系统开始步入实用,因而如何提高语音识别系统在背景噪声环境下的性能成为识别系统走向实用的关键问题之一.该论文在总结和分析现有的针对噪声鲁棒识别问题的算法的基础之上,依据噪声在信号、特征和模型空间对语音的影响,在端点检测、语音增强、语音特征增强、语音模型补偿和特征补偿的联合等方面做了大量的研究工作:一.端点检测在语音识别中有很重要的应用.该文对语音谱熵特征进行了深入的研究,提出引入常数到其中的概率密度函数的计算形式中,得到改进的语音谱熵特征,并且提出了相应的端点检测策略.改进的谱滴能够更容易地区分语音和噪声信号,而且,在不同信噪比下引入不同的常数,使得改进的谱熵几乎不受信噪比变化的影响,从而门限更易于设定和调节.大量实验表明该端点检测算法大大改善了基本的谱熵的性能,端点检测的准确程度大大高于传统的基于能量的端点检测方法.二.语音增强算法可以有效提高语音的感知质量和可懂度.该文分析了基于ARHMM模型的最大后验估计算法在低信噪比下的缺陷,提出结合码本限制的维纳滤波算法,来限制原有算法中的混合维纳滤波器,使其满足以码本描述的某些声道谱的限制条件.该文提出的算法框架在输出信噪比、感知质量等方面都取得了一定的提高.将该语音增强算法作为语音识别器的前端处理,也可以提高语音识别系统性能.三.语音特征增强或补偿算法的目的是净化语音使其与训练环境匹配,从而提高识别性能.该文假定由加性噪声引起的环境不匹配可以由功率谱域的加性偏差表示.由于偏差和噪声功率谱之间的对应关系,该文提出在最大后验框架下,引入噪声先难知识到偏差的估计过程中.而且,由于大多数噪声是非平稳的,不仅需要跟踪加性谱偏差的变化,还要实时更新噪声的统计特性.因此,该文在最大后验框架下,利用基于Kullback-Leibler信息度量的序贯估计技术自适应地估计谱偏差和更新噪声先验分布的参数,从而实现语音谱特征的增强.初步的语音识别实验表明该文提出的算法估于序贯的最大似然估计方法,而且在非平稳噪声环境下明显优于批处理的方法.四.语音模型补偿算法的目的是使得自适应之后的语音模型与训练环境相匹配.该文为了提高系统在非平稳噪声环境下的性能,综合利用模型补偿方法和特征补偿方法各自的优点,提出了这两个空间内联合补偿非平稳的噪声.该文将非平稳噪声分解为常量部分和残留噪声部分.在识别之前,利用该文提出的改进的雅可比自适应算法来补偿常量部分的噪声;在识别时,利用该文提出的残留噪声消除算法来消除残留噪声的影响.在平稳噪声和非平稳噪声下的实验结果证明了改进的雅可比自适应算法优于原有的雅可比自适应算法,而且在两个空间的联合补偿方法优于在单个空间的补偿.