论文部分内容阅读
目前,说话人识别在纯净语音的环境下识别率相当高,但在噪声条件下识别性能急剧下降。现在,人们提出了多种方法去提高说话人识别的性能,但仍有很多问题需要解决,如训练环境与测试环境之间不匹配等,本文主要对环境不匹配问题展开讨论。
目前解决环境之间不匹配的方法主要分成两种:前端特征降噪处理,包括鲁棒性特征提取;后端的特征、模型、得分补偿方法等。
本文对目前常用的前端降噪方法和鲁棒性特征进行了介绍,分析了其对说话人识别的性能改善程度和缺陷。文章的重点在后端的特征分析上,主要从特征补偿和得分补偿两方面进行改进。
特征补偿:利用泰勒多项式进行模型参数补偿的原理,本文在考虑加性噪声的环境下,采用自回归多项式,以信噪比作为自变量,进行特征参数的补偿,改善了说话人识别率,并提高了系统的执行效率,为说话人识别的实时性应用提供了一种思路。
得分补偿:文中分析发现,在噪声的环境下,导致说话人识别率下降的原因之一为,说话人的某些受噪声干扰严重的帧与训练时的纯净帧的不匹配,对说话人的得分起了畸变作用,从而使得识别性能降低。由于信噪比可作为语音帧信号畸变程度的衡量指标之一,文章采用帧信噪比参数对说话人识别中的帧得分进行加权,以改善说话人识别的性能。同时,说话人识别中高层特征信息抗噪性能要明显优于低层的倒谱特征信息,说话人的基音周期的分布可作为高层信息的一种,但单纯的高层信息由于其易于被模仿。因此本文结合倒谱特征参数,利用帧信噪比作为融合权重,对高低层信息进行融合,改善了说话人识别的性能。