论文部分内容阅读
近年来,日常生活中的移动电话,数字助听器,车载语音系统等数字语音处理设备的大量出现和使用引起人们对语音增强领域研究重视。同时复杂噪声环境下这些语音设备性能的急剧下降也使得人们对其抗噪声能力提出更高的要求。目前,该领域仍然存在着许多有待解决的关键问题。此外,VoIP的普及,使得人们可以方便地、低成本地进行语音通信。本文主要从语音活动检测、频域语音增强和VoIP多媒体会议混音处理三方面展开研究,内容包括以下四点:
(1)依据噪声功率谱密度分布的拖尾特性,用Rayleigh模型近似噪声功率谱密度数据的统计分布,导出基于Rayleigh模型的新判决阈值更新表达式,并提出一种基于该判决阈值更新准则的语音活动检测算法。由于Rayleigh分布下虚警概率具有解析表达式,从而避免了计算逆互补误差函数,降低了算法的复杂度。在非平稳噪声环境下,其正确检测率高于Davis提出的基于Gaussian模型的算法。
(2)对上面的语音活动检测方案,提出结合倒谱频谱估计的语音活动检测算法。该算法针对原Davis的语音活动检测算法中使用的Welch频谱估计算法复杂度较大的缺点,给出一种更节省计算资源的语音活动检测算法。
(3)提出一种基于对数Rayleigh混合模型的语音增强算法,导出了基于对数Rayleigh混合模型的最小最大MMSE估计器,该估计器比基于Gaussian混合模型的估计器有更高的输出分段信噪比。
(4)提出一种适用于集中式多媒体音频会议系统的实时同步混音转发算法。该算法通过设置多个循环混音缓冲区,并对其实施同步控制来实现音频数据的混音、转发功能,并利用反映操作系统调度情况的声卡缓冲区数据长度确定每次混音处理的数据长度,减轻操作系统调度对混音的影响。实验表明此算法是可行和稳定的。