论文部分内容阅读
说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,得到人们越来越多的研究。本文从语音信号的预处理开始分析,采用短时能频值端点检测算法对语音信号进行了端点检测,滤除语音信号的无声段。重点比较了该算法与双门限语音端点检测方法的性能,实验证实短时能频值端点检测算法能很好的区分语音端点。说话人识别系统中,最重要的是能够从语音片断中提取代表说话人独有特征的稳定参数。针对短时傅立叶分析在提取说话人特征参数时的缺陷,本文从听觉感知特性出发,研究了两种说话人识别特征,首先研究了基于小波包分析代替傅立叶变换的一种新的特征参数;然后给出了衡量各种特征参数识别能力的F比准则,利用F比准则构造出另一种新的混合特征参数。分类器设计部分重点研究了支持向量机,构建了支持向量机分类器。支持向量机算法是基于结构风险最小化原则的,采用一个非线性核函数来表示特征空间的内积,在小样本情况下具有很大的优势,有较好的泛化推广能力。通过特征提取阶段,提取出新的特征参数,将其生成基于SVM的特征向量序列,最后使用支持向量机分类器,基于样本进行训练和测试,实现说话人的分类识别。在自己建立实验语音库的基础上,通过采用不同时间段语音、不同信噪比和不同SVM核函数,用本文所构造的两种新的特征参数与MFCC参数进行了对比实验,结果表明了本文所提出的两种新特征参数有更好的鲁棒性,能够在各种环境下有效地提高说话人识别系统的识别性能。