论文部分内容阅读
现有单通道语音增强技术对平稳噪声的跟踪与消除能力较强,但对于现实生活中常见的非平稳噪声,往往会出现噪声估计不准确、噪声抑制效果较差的问题,因此非平稳噪声环境下的语音增强就成为实际应用中需要解决的一项课题。本论文的研究内容主要体现在以下几个方面:首先回顾隐马尔可夫模型(Hidden Markov Model, HMM)的基本原理和其在语音增强上的应用。其次,针对非平稳噪声环境提出了一种基于隐马尔可夫模型的语音增强方法。所提方法以激励能量和线谱频率参数(Line SpectrumFrequency, LSF)为特征,利用Baum-Welch算法分别训练纯净语音和噪声信号的自回归隐马尔可夫模型。在增强阶段,首先以归一化临界带功率谱为特征,利用高斯混合模型(Guassian Mixture Model, GMM)对背景噪声进行分类,而后利用纯净语音的HMM和对应类型噪声的HMM,在最小均方误差准则下估计语音和噪声的功率谱,并使用维纳滤波形式的谱增益函数对含噪语音进行增强。考虑到非平稳环境中训练集和测试集的差异性,提出了一种在线调整语音模型和噪声模型的方法。语音模型的能量调整采用迭代的期望最大化算法(ExpectationMaximization, EM);噪声模型的能量调整则利用的是模型训练过程中的能量重估方法,并以最小值控制的递归平均算法(Minima-Controlled RecursiveAveraging,MCRA)确定噪声能量调整的初始值。最后,为避免语音信号采集过程及语音增强等预处理模块对语音电平造成的影响,提出了一种网络端的压缩域自动电平控制(Automatic Level Control,ALC)方法。所提方法利用ITU-T P.56标准测定语音信号的实时电平,根据实时电平与目标电平的差异联合调整输入语音码流中的自适应码书增益和代数码书增益参数,从而达到将语音电平控制在听觉舒适范围内的目的。在国际电信联盟电信标准部(International Telecommunication Union,Telecommunication Standardization Sector, ITU-T)G.160标准下对语音增强算法进行性能测试。测试结果表明,与参考方法相比,本文提出的非平稳噪声估计方法能够较好的跟踪和处理非平稳噪声,噪声衰减量较大,收敛时间较短。自动电平控制的电平偏差在0.5dB以内,电平调整后语音的客观质量优于电平控制的参考算法。