论文部分内容阅读
随着科学技术的不断发展,如何利用机器来识别出不同的人,逐渐被人们所重视。说话人识别研究的是如何将人的语音作为身份标志,让机器依据这个标志辨识出不同的人。作为一种能为人们的日常生活提供便利的技术,说话人识别技术成为人们研究的热点。在说话人识别技术中,研究的核心是能够表征说话人的特征参数,提取了表征性能好的的说话人特征参数,才能准确的识别说话人。美尔频率倒谱系数(MFCC)是基于人耳听觉特性的一种参数,是描述说话人的重要特征参数之一。经验模态分解(EMD)是一种适合于语音信号处理的方法。我们将EMD应用到说话人识别中,可得到一些有意义的结果。本文详细的研究了说话人识别的特征参数的提取方法,分析了目前特征参数提取法的研究现状,主要作了以下工作:(1)MFCC提取法中利用FFT将语音信号从时域转换到频域,但FFT不能反映信号的瞬时变化情况。针对这种情况,本文对这一步骤进行了改进。Wigner-Ville分布是信号能量随时间-频率的分布,它能精确的定位信号的时频结构,但多分量信号的Wigner-Ville分布受困于交叉项的干扰。因此利用Wigner-Ville分布的优点,采用Wigner-Ville谱与FFT结合来代替单独的FFT,进行MFCC参数提取。提出了一种基于时频分析的MFCC参数提取法。通过实验仿真,验证了本方法既抑制了交叉项的干扰,又得到了精准的时频结构。本方法与传统的MFCC提取法相比,说话人识别的正确率有所提高。(2)根据语音信号的非平稳特点,提出了一种基于经验模态分解的语音特征参数提取法。首先利用短时时域处理技术对语音进行去清音处理,再用经验模态分解方法把语音信号分解为一系列固有模态函数(IMF)。一个IMF只含有语音信号的一部分信息,不同IMF分量携带的特征信息不同,对这些IMFs进行加权处理,综合得到新的语音,再对其进行后续处理。这样做的目的是为了突出有效的说话人特征信息,而筛掉一些无用的、不能表征说话人特征的信息。实验表明,该方法比传统的参数提取法更有效。(3)综合前述方法,提出了一种基于EMD与时频分析相结合的提取方法,即先将语音进行EMD分解,对得到的IMF进行加权,然后用FFT与Wigner分布相结合的方法进行MFCC参数提取。运用到说话人识别系统后,实验结果表明,相较于前述的两种方法,该方法大大提高了说话人识别系统的正确率,且鲁棒性较好。(4)ASCC描述的是信号的中频段信息,运用EMD方法和Hilbert变换,将语音信号的中频段(1500Hz-2500Hz)筛选出来,进行ASCC参数提取。然后与MFCC参数组合,提出一种基于Hilbert-Huang变换的MFCC与ASCC的混合参数提取法。实验表明,混合参数较传统的MFCC参数应用于说话人识别系统,正确率有一定提升。