GMM说话人建模的关键问题研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：close_2003

【摘要】

：

随着计算机技术及人工智能等技术的发展，说话人识别在近几年也有了长足的进展。自从Reynolds提出将GMM(Gaussian Mixture Model，高斯混合模型)用于说话人识别之后，GMM便一直是说

【作者】

：

邓立才

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2014年期

【关键词】

：

音频识别高斯混合模型数据分析短语识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术及人工智能等技术的发展，说话人识别在近几年也有了长足的进展。自从Reynolds提出将GMM(Gaussian Mixture Model，高斯混合模型)用于说话人识别之后，GMM便一直是说话人识别领域的研究热点。尽管之后研究人员又提出了许多新的效果更好的说话人识别方法，如GMM-SVM，JFA，i-vector等，但这些方法均基于GMM模型，系统中GMM模型性能的好坏直接关系着系统的识别性能，因此对GMM模型本身的研究十分必要。　　本文的主要研究内容如下:　　第一，UBM背景模型数据选择。UBM是说话人识别系统的核心，在选择背景说话人数据时，通常的做法都是使数据覆盖尽量多的说话人、通道以及麦克风类型，然而过多的数据中必然存在冗余，会增加UBM模型训练的复杂度。为了剔除冗余数据，Hansen提出在原始背景说话人数据中选择部分用于训练UBM的方法。本文在第三章首先验证了Hansen所提出的数据选择方法的有效性，并且在其基础上对其中的智能特征选择方法IFS采用跳帧方式改进。NIST数据库上的实验证明，利用改进的方法使得UBM训练时间由原来的3小时46分钟缩短为9分钟，在大大降低模型训练时间的同时，系统等错误率EER有了0.47％的提升。　　第二，基于GMM token配比相似度校正得分的说话人识别方法。在实验中我们观察到，不同说话人的GMM token分布模式是不同的，而同一个说话人相同内容的语句的GMM token分布模式趋于一致，根据这一点我们提出了一种基于GMM token配比相似度校正得分的说话人识别方法。该方法根据测试语句GMM token配比和模型训练语句的GMM token配比相似度对测试得分进行校正，有效降低测试语句中部分impostor测试语句的测试得分，从而有效提升系统EER性能。MASC@CCNT上实验表明，系统等错误率EER相对基准有0.87个百分点的提升。　　第三，基于GMM token的短语识别。由于语音的GMM token序列刻划了语音中音素内容的变化过程，所以被广泛的应用于语种识别和方言识别。而语音的GMM token配比向量则刻划了语音中音素内容的组成信息，根据这一点我们提出一种基于GMM token配比相似度的短语识别方法，在7个人（5名男性，2名女性）的“前左右”指令集上准确率为100％，而MASC@CCNT库上准确率为88.8％。另外，通过观察不同短语的语图进一步发现，不同短语发音的起始部分的各个频带的能量分布差别很大，因此我们进一步提出基于起始语音片段的短语识别方法，该方法只需要短语的起始部分的语音而不需要完整的语音内容。当只取“前左右”指令前100毫秒时，平均指令识别时间由原来的235.6毫秒缩短为112.8毫秒，而准确率为94.8％，只下降了5.2％。所以基于GMMtoken的短语识别可适用于实时性要求较高的场合。

其他文献

嵌入式数字媒体适配器的设计与实现

传统的家庭娱乐方式正发生着飞速的改变。随着数字家庭系统的流行,消费者越来越愿意坐在客厅里,通过大屏幕电视和高保真音响来欣赏网络媒体内容。数字媒体适配器(Digital Med

学位

数字媒体适配器媒体处理器板级支持包通用即插即用

异地协同增强现实系统设计及其一致性控制研究

增强现实技术可以把计算机产生的虚拟物体或者其他信息合成到用户看到的真实世界中，而协同增强现实技术可使多个使用者在增强现实环境下协同工作。目前绝大多数协同增强现实系

学位

增强现实协同增强现实头盔显示器传感器一致性控制本地滞后协同性能网络传输

语义Web服务发现机制的研究

描述Web服务的标准如WSDL,UDDI等大多基于语法层,存在同名异义和同义异名的问题,会导致基于语法关键字匹配的服务发现机制的低精确性,解决语义异构问题的方法就是为Web服务的

学位

语义网服务发现本体服务预处理功能性匹配

基于逻辑令牌环的容错协议的研究与实现

随着计算机网络的不断发展，人们对计算机系统的性能和可靠性的要求也越米越高。分布式系统是一组逻辑和物理上互联的处理单元的集合。将计算任务分布到多个物理主机上处理，可以

学位

分布式系统软件错误容错协议逻辑令牌环

中文文本分类中特征描述及分类器构造方法研究

随着信息时代的到来和Internet的日益普及,电子文本迅速膨胀,如何在海量的文本中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个

学位

文本分类特征选择机器学习主动学习支持向量机

基于数据分区和QR*树的并行DBSCAN算法研究

随着信息技术的高速发展，数据库应用的规模、范围和深度的不断扩大，导致积累了大量的数据，而这些激增的数据后面隐藏着许多重要的信息，因此人们希望能够对其进行更高层次的分析，以

学位

聚类DBSCAN数据分区QR~*树并行计算

基于本体的教学系统设计

本体技术已经发展成为知识表示、知识管理、知识共享、知识复用的主流技术之一，正成为Web信息检索、异构数据集成、数字图书馆、GIS、语义Web等研究领域共同关心的一个核心技

学位

本体知识库本体学习语义导入语义检索知识管理课程教学系统

注解信息制导的动态二进制翻译器内存优化

动态二进制翻译器能够在运行时将针对源体系结构编译的软件动态翻译成目标体系结构的软件并使之运行。尽管随着新的体系结构不断涌现，动态二进制翻译器技术越来越流行，但是动态

学位

注解信息动态二进制翻译器内存优化寄存器化

无线传感器网络中能量管理策略研究

无线传感器技术的快速发展使得传感器网络的应用成为了现实,将传感器网络部署到监测区域后,可以源源不断地获得目标区域的相关数据。大多数无线传感网络应用中,传感器节点的

学位

无线传感器网络能量管理动态功率管理数据流小波分析自回归

PKI系统安全保护等级评估工具的研究

网络与信息系统是现代社会最重要的信息基础设施，已经渗透到社会的各个领域。保障网络和信息系统的安全关系到国家的存亡、经济的发展、社会的稳定。公开密钥基础设施PKI(Publ

学位

公钥基础设施网络安全系统安全等级保护

GMM说话人建模的关键问题研究

其他学术论文