论文部分内容阅读
语音信号在语音通信系统中不可避免地受到环境噪声的干扰。语音增强是降低和抑制噪声干扰,提高语音系统通信质量的主要方法,在语音编码、语音识别、语音合成等方面得到了广泛的应用。语音增强的主要目标是从含噪语音信号中提取出尽可能纯净的原始语音,提高语音信号的可懂度和清晰度。语音增强算法可以抑制或减少噪声干扰,但同时也不可避免地会对原始语音造成一定的失真,从而导致语音增强算法的内在矛盾:较好的噪声抑制会带来较多的语音失真,而减小语音失真往往使噪声得不到足够的抑制,各种语音增强算法都力求在二者之间寻求最佳。子空间语音增强算法具有控制语音失真和残余噪声的平衡机制,是本文提出的几种新算法的研究基础。子空间方法的基本思想是首先将含噪语音信号空间分解为两个正交子空间,即信号子空间和噪声子空间。信号子空间除了包含语音信号,还包含噪声信号,通过去除噪声子空间的噪声信号,并保留信号子空间的语音信号分量,这样就可以从信号子空间中尽可能多地提取出原始语音信号。子空间方法大多要求对语音数据矩阵进行特征值分解,计算复杂度为O(K~3)(K是采样语音数据的帧长)。在许多实际应用中,语音数据矩阵是时变的,此时需要解决在一次或几次采样的基础上自适应地估计出时变语音数据矩阵的瞬时特征值分解。因此,探索子空间类算法的自适应形式成为语音增强的一个重点研究方向。由于广义子空间方法具有较大的计算量,不适合实时实现。显然,对于各种涉及到特征值分解的子空间方法也都存在类似的问题。为了降低算法的计算复杂度,提高语音增强算法的性能和实时性,本文提出了一种低复杂度的子空间语音增强算法。该算法利用了在工程应际中广泛使用的子空间迭代法,子空间迭代法是解决大型广义特征值问题的有效方法。通过重复使用一维子空间迭代,可以对语音数据矩阵的所有特征值和相应的特征向量进行迭代估计,从而实现语音增强。从本文算法的推导过程可以看出,通过语音数据矩阵的特征向量和特征值的迭代估计,本文提出的语音增强算法的计算复杂度降低为O(K~2),当K很大时,本文算法低复杂度的优越性更加明显。此外,本文算法没有要求背景噪声的特性,因此本文算法对于各种类型的噪声都是适用和有效的,是一种最优估计算法。通过几个语音质量评价结果可以看出,本文算法对白噪声和彩色噪声都有较好的效果。低复杂度的特点更利于本文算法在实际语音应用中的实现。同广义方法相比,增大本文算法的帧长可以在较少的迭代计算中提高语音增强的质量,而广义方法的计算复杂度将会大大地增加。在低信噪比的情况下,本文算法的性能更好,即如果在信噪比和帧长的选择之间达到平衡时,就能够获得可接受的增强语音质量,这也证明了本文算法的优越性。引入了投影近似子空间跟踪的传统自适应子空间语音增强算法是基于一些假设来实现的。在非平稳噪声环境和低信噪比的情况下,如果我们将此算法作为语音增强的基础,则语音增强的性能是不能令人满意的,甚至是不可接受的。为了克服这些缺点,本文提出了一种用自适应离散余弦变换(DCT,Discrete Cosine Transform)近似卡洛南-洛伊变换(KLT,Karhunen-Loève Transform)的子空间语音增强算法,实现了含噪语音协方差矩阵的特征值和特征向量自适应估计。通过引入自适应DCT来近似KLT,在各个方面实现了语音质量的改进。从本文算法的推导过程可以看出,含噪语音协方差矩阵的特征值和特征向量估计的计算复杂度是O(K)。因此,本文推导出的自适应子空间语音增强算法很容易在实际中实现。另外,本文算法没有对噪声的随机特性做出假设,适用于各种类型的噪声信号。由于本文算法不需要特征值分解,因此具有收敛速度快、估计精度高的特点。仿真结果表明,本文算法在不同噪声环境下实现了较好的递推形式的语音增强,且语音失真比传统自适应算法低。特别是在非平稳噪声环境和低信噪比的情况下,本文算法的优越性更为明显。最大似然自适应子空间估计(MALASE,Maximum Likelihood Adaptive Subspace Estimation)是处理快速自适应特征值分解问题的新方法。MALASE采用随机算法,通过最大似然准则实现对子空间的跟踪,跟踪结果是数据矩阵的特征向量和特征值的自适应迭代估计,实现了数据矩阵的瞬时特征值分解,运算复杂度为O(K~2)。由于使用了类似Givens旋转技术,保证了每次迭代所估计的特征向量严格正交,这是MALASE算法一个非常显著的优点。本文提出一种MALASE和噪声特征值估计相结合的子空间语音增强算法,不需要特征值分解和语音活动性检测(VAD,Voice Activity Detection)。通过MALASE可以得到含噪语音协方差矩阵的特征值和特征向量,之后利用子空间域噪声特征值估计算法,结合语音存在概率,对含噪语音协方差矩阵的特征值进行递归平滑得到噪声特征值估计,实现了噪声的连续估计和不断更新。与传统算法和最小控制递归平均(MCRA,Minima Controlled Recursive Averaging)算法相比,本文算法可用于不同类型的噪声环境,具有估计精度高、易于实现、语音失真小、噪声小、整体质量好等优点。本文算法也适用于低信噪比和非平稳噪声环境的应用。