说话人确认中语音段差异建模相关问题的研究

被引量 : 0次 | 上传用户:alx0890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着说话人确认技术发展至今,复杂信道下的长时语音段的说话人确认技术已经日趋成熟,为其实用化奠定了基础。其中,建立在高斯混合模型-通用背景模型的基础之上的全局段差异建模,建模方式简便,在应用于说话人确认系统的过程中,结合高效的后端非说话人差异补偿模型,如概率线性区分性分析模型(Probabilistic Linear Discriminant Analysis, PLDA),自提出以来就成为了当前说话人领域的主流技术。全局段差异建模的思想在于将特定的语音段中所包含的异于所有语音段共同包含的共性信息(主要为发音内容),即该语音段的段差异(Session Variability),用一个固定长度的低维向量进行表达,即段差异向量。段差异向量中包含了发音内容以外的差异,包括非说话人差异(主要为信道差异)和说话人差异。在段差异向量之上,需要对其进一步建模消除说话人无关的差异对说话人辨认的影响,因此,全局段差异建模的核心问题在于提取语音段中的段差异以及在后端对非说话人差异进行补偿,从而提取到语音段中有利于说话人判别的说话人信息。本文针对段差异的建模和说话人差异的提取及判别方面进行了一系列的研究,主要内容如下:第一,通过全局段差异建模虽然能够获得关于语音段中的段差异的整体上的表达,但是却忽略了存在于语音段中的细节性的差异,因此我们提出利用局部段差异建模的方法提取存在于语音段中的不能被全局段差异建模所表达出的局部段差异,用于说话人确认。在局部段差异建模中,我们分别针对每一个高斯和每一个声学特征的维度中包含的段差异进行建模提取,即高斯局部差异建模和维度局部差异建模。进一步的,在维度局部差异建模中,我们提出对声学特征的维度进行不同方式的绑定,然后再提取绑定的维度组合中的局部段差异。由于局部段差异模型与全局段差异模型分别从不同的角度对语音中的段差异进行建模,二者之间存在一定的互补能力,使得我们可以在系统和模型两个层面分别融合,从而获得比单独的模型更优的性能。第二,在全局段差异建模中,当用于测试和模型训练的语音段在文本上保持一致时,全局段差异建模对于语音的段差异差异拥有良好的建模能力,如长时语音段的文本无关以及短时语音段的文本相关的说话人确认。而当存在文本不匹配的问题时,例如针对短时短时语音段的文本无关的说话人测试中,由于全局段差异建模无法针对文本进行段差异建模,导致说话人的判别受到文本差异的影响。我们在局部段差异建模的思想基础之上,借助语音识别中的基于深层神经网络的声学模型对语音帧以音素状态进行聚类,并以此为基础提取音素相关的局部段差异。在该建模方式中,我们分别采用单音素和三音素声学模型,在针对不同的音素提取到的局部段差异向量之上,根据测试用的语音段中包含的音素对局部段差异向量进行挑选并用于说话人判别,由此进行音素相关的说话人判别,解决短时语音段中的文本不匹配问题。在音素之上,我们进一步探索利用语音识别器的识别结果,以词为对象进行段差异提取并判别说话人,完善基于发音内容的段差异提取及说话人判别的研究。第三,当前基于全局段差异模型的后端信道补偿的主流技术PLDA是一个线性的概率模型,在本文中,我们针对后端信道补偿模型进行了一系列的改进研究。首先,对于PLDA,我们提出一个与现有的说话人得分计算模型等价的建立在自适应的说话人模型上的得分计算模型,在此模型基础之上,针对多语音段注册说话人的任务中,不同说话人注册语音段数量不同以及同一个说话人的不同语音段之间不同程度的重叠的现象,提出利用说话人因子的先验分布参数进行模型注册以取代传统的后验分布参数,以此来解决这两个问题对于得分计算带来的影响。此外,我们在说话人自适应模型的基础之上,引入信道自适应,在每一组测试中,将PLDA模型自适应到测试语音段的信道空间之中,进而计算得分,通过这种方式,我们可以考虑到不同测试的具体信息,从而提升系统的性能。其次,我们引入深层神经网络用来提取存在于全局段差异向量中的非线性的深层说话人信息,用于说话人判别,达到改善系统性能的目的。
其他文献
法学教育的目的在于培养具有法律思维能力,具备法律职业技能的人才。现阶段中国本科法学教育中,对学生的法律职业技能与法律思维的培养重视不够,使毕业生不能适应社会的要求
以试验数据作为训练样本,对现有的误差反向传播神经网络算法进行了改进,构建了摩擦焊工艺中主要参数与接头性能(强度)间的非线性相关模型,并采用该模型对接头强度值和主要工
针对目前创新人才培养过程中实验室安全与环保素养培养缺位的情况,探索了大学生实验室安全与环保素养培养模式。通过更新培养理念、明确培养目标、搭建学习平台、建立和健全
<正>随着现代化教育教学观念的深入,多媒体技术在教育中的应用越来越广泛。近年来,多媒体技术在幼儿园的应用也开始普遍起来,成为幼儿园教育教学中不可缺少的一部分。多媒体
目的分析准分子激光角膜磨镶术(Laser-Assistedin Situ Keratomileusis,LASIK)角膜游离瓣的成因并总结护理对策及效果。方法选取我院眼科2015年1月~2018年5月行LASIK手术治疗
在智能交通系统中,交通信息检测是其重要的组成部分。它是将各种传感器检测到的信息进行融合,得到实时准确的交通流数据,送给智能交通控制中心,再由控制中心进行处理和判断,
引进岩石时效强度理论及Kachanov损伤理论,建立以时间变量表示的岩石损伤表达式,并将其与岩石黏塑性流变参数相联系,建立包含加载时间、加载应力等变量在内的岩石黏塑性流变参数
通过介绍D12发动机缸体毛坯开发过程中遇到的气孔、水套内腔粘砂、结疤等缺陷的解决方法,提出细化对砂芯排气、制芯过程排气等细节的研究和优化的重要性。
近些年来,统计参数语音合成(Statistical Parametric Speech Synthesis, SPSS)已经发展成为和单元挑选与波形拼接相并列的一种主流语音合成方法。其中,基于隐马尔可夫模型(Hi
解释学大师伽达默尔认为“历史学的基础也是解释学。”由于人的历史性 ,人对文本的理解总是包含着历史的中介 ,文本也有自己的历史“视域”。而理解、解释就是经验这两种“视