论文部分内容阅读
说话人识别作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特征的语音参数,自动鉴别说话人身份的一项技术。说话人识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。因此,研究一种识别率高、鲁棒性强的说话人识别方法是国内外众多研究者努力的目标。在众多的说话人识别方法中,本文重点研究了基于Mel频率倒谱系数(Mel-frequency Cepstrum Coefficients,简称MFCC)特征和高斯混合模型的说话人识别系统,结合F比、主分量分析和独立分量分析等方法做了以下研究工作: (1)对比了常用特征LPCC(Linear Predictive Cepstral Coefficients,简称LPCC)、ACW(Adaptive Components Weighting,简称ACW)和MFCC对系统识别性能的影响,并通过实验验证了使用MFCC特征可以使得系统取得较高识别率。 (2)在MFCC的基础上,讨论了加入归一化短时能量的MFCC以及提取MFCC的过渡信息对系统识别性能的影响。并利用F比这种特征评价方法来选取特征分量,验证了F比方法的有效性。 (3)借助于F比方法直接选取MFCC中对识别性能贡献较大的特征分量,并给出一种基于MFCC特征的加权F比方法。 (4)将主分量分析和F比方法应用于MFCC特征提取过程之中,去除了特征分量之间的相关性,同时又可以选取出区分度最大的特征分量。 (5)将独立分量分析和F比方法应用于MFCC特征提取过程之中,去除了特征分量之间的冗余信息,同时选取出对识别性能贡献较大特征分量。 对上述各种特征提取方法进行了实验对比,对实验结果进行了较为详尽的分析,并给出了总结性的结论。文中最后对以后的研究工作进行了展望。