基于MG训练准则的说话人表征研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:xiaobailove2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的说话人识别系统多采用梅尔频率倒谱系数(MFCC)特征以及高斯混合模型(GMM)框架,后续也出现了基于i-vector、深度神经网络等更多的说话人识别框架。尽管深度学习方法在说话人识别领域表现出不俗的识别性能,但这种提取说话人表征的深度神经网络的训练目标是纯区分性的,也就是训练目标仅仅是为了区分每个说话人,并没有考虑到这些说话人向量的分布。这种局限性会导致两个严重问题:(1)对于每个说话人,其类内的说话人向量不符合高斯分布;(2)不同说话人的向量分布是非同质性的。而非高斯性和非同质性将会严重影响后端打分模型的性能,特别是当使用目前最流行的概率线性判别分析(PLDA)模型进行打分时影响最为突出,因为PLDA是基于高斯假设的前提计算两条语音的似然比,不受约束的数据分布将会给PLDA打分结果带来偏差。因此,本文采用基于最大化高斯(Maximum Gaussianality,MG)训练准则的方法来规整说话人表征的分布,主要工作如下:1、基于VoxCeleb1等公开数据集构建以x-vector为主的说话人识别基线系统。经过基线系统实验,验证了当前主流说话人识别系统提取出来的说话人表征在高维空间中的分布复杂性,分析了主流说话人模型提取的说话人表征在高维空间中的分布具有非高斯性、非均匀性的特点。2、采用最大化高斯训练准则对说话人向量分布进行规整。符合高维高斯分布的向量满足以下两个特性:(1)绝大多数样本集中分布在高维高斯球面上;(2)任意两个样本都是正交的。因此这两个特性是满足高维高斯分布的必要条件。利用这两个特性,在训练时分别最大化样本的长度度量和角度度量,直接对高维说话人向量的分布进行高斯优化。相比于基线系统,该模型后端打分的等错误率EER降低了1.2%~6%,对说话人识别系统准确率的提升具有重要优势。3、优化PLDA打分方法,提升识别性能。当训练集中类的数目有限时,传统的PLDA打分方法不足以估计所有说话人的类间方差,影响后端评分系统性能。因此本文提出通过引入一个额外的逆威沙特先验,用基于最大后验概率估计的PLDA打分方法来修正传统PLDA打分方法,后端评分的等错误率EER均降低了0.2%~1%左右,提升了后端评分的性能。
其他文献
学位
学位
牦牛(Bos grunniens)生长于高海拔,低氧,低温的特殊环境下,有着独特的能量代谢御寒体系,使之能在高寒极端的环境下生存下来。动物体内能量的储存主要来源于脂肪组织,脂肪组织可以调节体内能量储存与消耗平衡,在脂肪积累,脂质代谢和激素分泌等过程中起着关键作用。诸多研究表明肥胖相关蛋白(fat mass and obesity associated,FTO)可影响脂肪细胞增殖,促进脂肪细胞分化,
学位
固体氧化物燃料电池(SOFC)是继水力发电、热力发电和原子能发电后的新一代能源技术,具有清洁高效、燃料来源广泛、安静和使用寿命长等优点,受到国内外众多学者的高度关注。SOFC属于高温燃料电池,对其实物一方面的研究多集中于材料选取和结构设计,另一方面的研究多集中于动力学建模和性能控制。SOFC属于多输入多输出的复杂系统,其性能易受到外界相关环境因素的影响,必须设计具有强抗干扰性的控制器才能保证其工作
学位
学位
学位
学位
随着社会的发展,人们更多地把评价信息当作自己的商品选购的主要依据,而大量的评价信息也成为了人们关注的焦点。人们更多地把注意力集中在商品评论的信息上,通过分析评论文字对用户和平台都有很大的好处,并且有助于进行面向层面的情绪倾向性分析。方面级情感分析是情感分析中的一种细粒度的情感分析任务,在情感分析中,各层次的情感分析是一个非常重要的研究课题。研究的目标是从语篇的语义信息中,对一个实体进行多个属性层面