论文部分内容阅读
传统的说话人识别系统多采用梅尔频率倒谱系数(MFCC)特征以及高斯混合模型(GMM)框架,后续也出现了基于i-vector、深度神经网络等更多的说话人识别框架。尽管深度学习方法在说话人识别领域表现出不俗的识别性能,但这种提取说话人表征的深度神经网络的训练目标是纯区分性的,也就是训练目标仅仅是为了区分每个说话人,并没有考虑到这些说话人向量的分布。这种局限性会导致两个严重问题:(1)对于每个说话人,其类内的说话人向量不符合高斯分布;(2)不同说话人的向量分布是非同质性的。而非高斯性和非同质性将会严重影响后端打分模型的性能,特别是当使用目前最流行的概率线性判别分析(PLDA)模型进行打分时影响最为突出,因为PLDA是基于高斯假设的前提计算两条语音的似然比,不受约束的数据分布将会给PLDA打分结果带来偏差。因此,本文采用基于最大化高斯(Maximum Gaussianality,MG)训练准则的方法来规整说话人表征的分布,主要工作如下:1、基于VoxCeleb1等公开数据集构建以x-vector为主的说话人识别基线系统。经过基线系统实验,验证了当前主流说话人识别系统提取出来的说话人表征在高维空间中的分布复杂性,分析了主流说话人模型提取的说话人表征在高维空间中的分布具有非高斯性、非均匀性的特点。2、采用最大化高斯训练准则对说话人向量分布进行规整。符合高维高斯分布的向量满足以下两个特性:(1)绝大多数样本集中分布在高维高斯球面上;(2)任意两个样本都是正交的。因此这两个特性是满足高维高斯分布的必要条件。利用这两个特性,在训练时分别最大化样本的长度度量和角度度量,直接对高维说话人向量的分布进行高斯优化。相比于基线系统,该模型后端打分的等错误率EER降低了1.2%~6%,对说话人识别系统准确率的提升具有重要优势。3、优化PLDA打分方法,提升识别性能。当训练集中类的数目有限时,传统的PLDA打分方法不足以估计所有说话人的类间方差,影响后端评分系统性能。因此本文提出通过引入一个额外的逆威沙特先验,用基于最大后验概率估计的PLDA打分方法来修正传统PLDA打分方法,后端评分的等错误率EER均降低了0.2%~1%左右,提升了后端评分的性能。