基于有限语音数据的说话人确认研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sweetpingping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音数据中包含大量信息,通过语音可以对说话人身份进行认证。说话人确认(Speaker Verification)是利用语音中所含的说话人个性信息来判定某段语音是否来自特定目标说话人的技术。从经典的高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)发展到如今流行的身份向量(i-vector)及概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)模型框架,说话人确认系统获得了长足的进步。然而,为取得良好性能,现有的说话人确认方法要求提前获取大量的训练数据用于系统超参数的训练。同时,对用于说话人注册和测试的语音数据长度也有要求,对于短时长测试语音,系统性能迅速下降。本文针对上述问题开展研究,为短测试语音、目标域训练数据有限和GMM模型参数自适应提出了解决方案。本文主要工作及创新点如下:1)对短语音i-vector估计的不确定性进行分析,改进了i-vector提取中Baum-Welch统计量的计算。利用赋予权重的历史测试信息以及通用背景模型中的参数信息来增加用于短语音Baum-Welch统计量计算的说话人个性信息,并将改进的统计量用于i-vector提取。2)对传统的线性判别分析(Linear Discriminant Analysis,LDA)技术提出改进,将之运用于开发集与评估集之间域失配(Domain Mismatch)的补偿中。利用少量的目标域训练数据对在非目标域上训练得到的系统进行域适应,有效减少了系统对目标域训练数据的要求。3)通过无监督方法将积累的测试语音数据用于GMM说话人模型更新,提出一种基于双模型相似度衡量的模型更新方法。为每个说话人建立两个模型,按照一定的间隔交替更新,对两个模型相似度施加限制以控制并优化数据积累过程,可以将更多的数据用于模型训练。
其他文献
在自然界中,由于岩石内部存在不同形式、张开度不同的裂隙缺陷,使得本就各向异性的岩石力学性质进一步劣化,从而影响了岩石的强度和变形力学特性。而裂隙岩体的强度和变形特
工程项目的多目标优化问题一直以来都是项目管理研究的热点,在工程项目管理过程中,如何保持工期、成本和质量之间的平衡,做到不顾此失彼,对企业的经济效益有着至关重要的影响
陕南汉中小城镇长期在特殊的自然地理环境作用下,孕育出了独特的小城镇空间形态,承载着丰富的空间文化。但近些年来,使用无差别化的推进小城镇发展策略,出现千镇一面、同化形
众多建筑形式中,钢管混凝土结构一直被认为是一种具有较高承载能力,且耐火性能出众的结构形式之一。关于钢管混凝土柱抗火性能的研究开始的时间较早,且国内外研究成果众多。
随着空战中攻防对抗技术的持续发展,现有导弹的性能已难以满足越来越多的技战术要求,需要设计具有更高性能的空空导弹,而空空导弹自动驾驶仪则是关系到导弹飞行成败的关键系
目的:1、探讨同型半胱氨酸(Hcy)、脂质过氧化物(LPO)与高血压的关系。2、探讨同型半胱氨酸(Hcy)、脂质过氧化物(LPO)与左心室肥厚(LVH)的关系。方法:选取2019年4月至2019年11
我国目前面临工业余热富余,冷量需求不断增长的局面。本文针对工业低品位余热的回收问题,利用Aspen Plus软件设计和模拟了LiBr/NH3级联吸收式制冷系统,讨论了系统的热力学性
研究表明,风在高度超过100米以上时波动性较小,发电质量较好。传统锥形单管塔筒结构高度达到100米以上时,因其用钢量大、加工运输困难、经济性差、结构可靠性低等缺陷,严重制
当前我国城镇化进程中面临诸多如大气污染、城市雾霾及热岛效应等环境问题,直接影响到城市住区人们的居住舒适性和环境空气质量。在城乡规划与建筑设计、城市环境质量等领域
自来水消毒的过程中会形成消毒副产物,但还有很多消毒副产物未被发现,因此总有机卤(TOX)被提出,来表示这些混合消毒副产物的总量。传统的TOX检测方法中的分离步骤有很多问题,