论文部分内容阅读
如今,语音增强在我们的日常生活中已经取得了广泛的应用。因此,在过去的几十年间,许多不同的语音增强方法已被提出。尽管如今已经有了大量基于监督式学习的语音增强方法,但其仍然存在两个问题。首先,由于许多有用的语音信息都存在于谐波间,因此语音的谐波恢复对语音增强至关重要。然而,目前基于监督式学习的语音增强方法对于谐波恢复和去除谐波间噪声的能力有限。其次,这些方法通常没有较好的泛化能力。解决该问题或许可以在训练阶段增加噪声、带噪语音和纯净语音的数量,从而使其包含更多的噪声环境。但是,这样就需要获取大量的平行数据集,而大量平行数据集的获取确是十分困难的。为解决以上两个问题,本文提出了三种基于监督学习构建维纳滤波器的语音增强方法。首先,本文利用码书和语音的谐波结构来进行语音增强。该方法能有效地去除存在于语音谐波间的噪声。在该方法中,本文首先利用语音的谐波结构去估计了先验语音存在概率,然后利用该概率估计噪声的自回归(Autoregressive,AR)谱形状。此外,该先验语音存在概率也被用于修正维纳滤波器。最后,本文通过结合纯净语音的AR谱形状码书构造修正后的维纳滤波器,从而实现语音增强。其次,本文尝试利用语音倒谱和深度神经网络(Deep Neural Networks,DNN)实现语音增强。该方法能有效地恢复出语音的谐波结构,进而获得更加高质量的语音。在该研究中,本文将带噪语音倒谱作为DNN的输入,直接预测纯净语音的倒谱和理想维纳滤波器,从而实现语音增强。此外,本文还提出一种结合倒谱特征和维纳滤波器的混合框架,进一步提高增强语音的质量。最后,本文提出了一种基于长短时记忆神经网络和条件生成对抗网络的语音增强方法。该方法包含一个生成器和一个区分器。由于生成器和区分器都具有长短时记忆神经网络的结构,因此其更适合于语音增强任务,并能比之前方法更好地恢复出语音的谐波结构。该方法将带噪语音倒谱作为DNN的输入,直接预测纯净语音的倒谱和理想维纳滤波器,达到实现语音增强的目的。另外,基于生成对抗网络的特性,本文还提出了一种新的不依赖于平行数据集的语音增强方法。该方法利用了循坏一致对抗神经网络,有效地降低了训练DNN所需数据的要求,有效提高了DNN的泛化能力。