基于语音反演机器学习方法的声道模型研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yujiesky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于协同发音的影响,自动语音识别系统的性能会受到影响。已有的研究表明结合发音信息可以提高语音识别系统的性能,但是发音信息在话音环境中并不容易得到,因此语音反演被提了出来。语音反演是一种从语音信号中预测发音轨迹或者声道配置的方法。如果能够准确地预测发音信息,这些发音信息还能有助于语音合成、语言获取以及语音可视化等。论文首先提出使用声道变量作为发音信息(代替传统的球状轨迹)来模式化语音动态,并比较了声道变量和球状轨迹的预测性能和非唯一性。论文将语音分别参数化为梅尔倒谱系数,感知线性预测倒谱系数和线性预测倒谱系数,并使用混合密度网络来预测声道变量和球状轨迹。实验结果表明声道变量比球状轨迹能被更准确地预测。另外,论文使用基于模型的统计公式计算声道变量和球状轨迹的标准化的非唯一性,结果表明对于相同的六个辅音,声道变量的非唯一性比球状轨迹的非唯一性低。论文另一个研究内容为使用四种不同的语音反演的机器学习方法,即前馈人工神经网络、自回归人工神经网络、远端监督学习以及轨迹混合密度网络比较声道变量和球状轨迹,结果表明声道变量比球状轨迹有更好的性能,更适合基于发音器官特征的自动语音识别系统。另外论文分别将语音参数化为梅尔倒谱系数和声学参数,并比较了这四种方法对声道变量的预测性能,结果表明从整体来看三层隐层的前馈人工神经网络对声道变量的预测性能最好。
其他文献
在软件开发与维护过程中,bug修复是至关重要的一个环节。快速准确修复bug的关键,是找到能修复bug的开发者,即bug分配。当前人们主要用文本分类方法来解决bug分配问题,然而该
随着计算机技术的发展和网络应用的深入,网络安全受到的威胁日益严重,尤其是恶意代码(计算机病毒、木马、网络蠕虫等)的泛滥对网络应用造成了很大的破坏。在这些恶意代码中,
随着计算机的普及和现代网络技术的发展,文档在线阅读和共享已经成为现代社会人们获取知识的一种普遍途径。作为对传统出版物的重要补充形式,文档的在线阅读以及下载为人们的
无线传感器网络被应用到越来越多的领域,事件监测是其重要应用之一。模式查询系统是实现事件监测的重要手段之一。由于传感器节点存在诸多限制,本文对模式查询中的模式数据分
利用Java字节码文件中的属性,本文提出了一种用于Java程序优化的方法。该方法利用前置改良同步逃逸分析算法,将待优化Java程序中冗余同步操作对象找出,然后将这些信息通过标
随着社会网络的飞速发展,越来越多的人们投入到这场新的社交盛宴里,他们通过社会网络沟通交流、分享信息,其中沉淀下来的社会网络关系和用户个人信息,具有非常重要的商业价值
太赫兹(THz)波是指0.1~10 THz频段之间的电磁波,它在电磁波谱中位于微波和红外光之间。低频太赫兹波是指频率范围在0.1~0.3 THz之间。近年来,由于太赫兹波在材料、通信、成像和国
多处理器系统中,故障诊断是一个通过相互测试来识别出系统中的故障处理器的过程,在保障系统可靠度方面起到相对大的作用,并且被许多学者所研究。在1976年,Prepara et al.等人提出
随着互联网上的压缩文件数量越来越多,涉及秘密信息的加密压缩文件随着人们信息安全意识的增强在不断增多,因此,加密压缩文件的口令恢复对信息安全有至关重要的意义。目前,互联网主流的压缩软件有WinRAR(RAR3和RAR5)、WinZip、7-Zip三种,它们对信息的加密主要以SHA-1、SHA-256算法为核心,并且以AES-128、AES-256以及CRC32等算法作为校验加密来提高安全性,增强破译
学位
摘要:在无线Mesh网络中,网关负载均衡性成为无线Mesh网络性能的“瓶颈”,网关部署策略及性能优化对无线Mesh网的管理和高效运行有重大的战略意义。本文,我们围绕网关负载均衡