论文部分内容阅读
语音数据中包含大量信息,通过语音可以对说话人身份进行认证。说话人确认(Speaker Verification)是利用语音中所含的说话人个性信息来判定某段语音是否来自特定目标说话人的技术。从经典的高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)发展到如今流行的身份向量(i-vector)及概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)模型框架,说话人确认系统获得了长足的进步。然而,为取得良好性能,现有的说话人确认方法要求提前获取大量的训练数据用于系统超参数的训练。同时,对用于说话人注册和测试的语音数据长度也有要求,对于短时长测试语音,系统性能迅速下降。本文针对上述问题开展研究,为短测试语音、目标域训练数据有限和GMM模型参数自适应提出了解决方案。本文主要工作及创新点如下:1)对短语音i-vector估计的不确定性进行分析,改进了i-vector提取中Baum-Welch统计量的计算。利用赋予权重的历史测试信息以及通用背景模型中的参数信息来增加用于短语音Baum-Welch统计量计算的说话人个性信息,并将改进的统计量用于i-vector提取。2)对传统的线性判别分析(Linear Discriminant Analysis,LDA)技术提出改进,将之运用于开发集与评估集之间域失配(Domain Mismatch)的补偿中。利用少量的目标域训练数据对在非目标域上训练得到的系统进行域适应,有效减少了系统对目标域训练数据的要求。3)通过无监督方法将积累的测试语音数据用于GMM说话人模型更新,提出一种基于双模型相似度衡量的模型更新方法。为每个说话人建立两个模型,按照一定的间隔交替更新,对两个模型相似度施加限制以控制并优化数据积累过程,可以将更多的数据用于模型训练。