论文部分内容阅读
说话人识别系统在噪声环境下的鲁棒性是关系到说话人识别能否走向完全实用化的关键,也是当前说话人识别技术研究的热点和难点。噪声鲁棒性问题的根源为说话人识别训练和测试环境之间的不匹配,而抗噪声说话人识别的目的就是减小不匹配对识别系统造成的负面影响,在噪声环境下达到很好的识别性能。现有的抗噪声说话人识别技术可以简单的归为基于信号空间的语音增强、基于特征空间的鲁棒性特征参数提取及基于模型空间的模型补偿三类。本文主要针对加性噪声的影响,在信号空间和特征空间对问题进行了深入的研究和探讨,提出了几种新的抗噪声说话人识别技术。
首先,研究了基于信号空间的抗噪声说话人识别技术——语音增强。语音增强技术一般都作为预处理模块存在于说话人识别系统中,尽可能的将纯净语音送入识别系统输入端,因此,无需改变现有的识别系统就能增强其鲁棒性。现有的基于离散余弦变换的语音增强算法无法解决语音信息丢失与消除信号中的噪声二者之间的矛盾,而本文提出的模拟人耳听觉选择性的基于离散余弦变换的动态阈值语音增强算法很好的解决了这一问题,实现了低信噪比下语音增强的目的,并且增强后的语音在时域和频域上失真度小,非常适用于抗噪声说话人识别系统的前端处理器。
其次,研究了基于特征空间的抗噪声说话人识别技术——具有鲁棒性的特征参数提取。在实际应用中,这是说话人识别中最至关重要的一种技术,其目的是从带噪语音信号中抽取简洁、有突出代表性的相关特征参数用于判别分析。本文以MFCC为基础,提出了两种改进策略:1、根据语音信号的特性,应用DCT提取刻画说话人声源特性的谱特征参数SSC、SBE等,与MFCC组成混合特征参数;2、根据不同的信噪比及噪声背景下,噪声对语音信号的干扰各不相同,从而应用Fisher准则对声道特征参数MFCC进行降维。
最后,研究了支持向量机中核函数对分类性能的影响。核函数是支持向量机模型的核心机制,函数类型的选择和参数的确定对于分类的准确度至关重要。论文阐述了核函数的基本理论,对目前常用的多项式核函数和径向基核函数进行了仿真和分析,测试了它们在噪声环境下的系统识别率和稳健度,可作为一般应用SVM进行说话人识别问题选择核函数及核函数参数范围的依据。