基于语音反演机器学习方法的声道模型研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：yujiesky

【摘要】

：

由于协同发音的影响，自动语音识别系统的性能会受到影响。已有的研究表明结合发音信息可以提高语音识别系统的性能，但是发音信息在话音环境中并不容易得到，因此语音反演被提了出

【作者】

：

陈英

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2013年期

【关键词】

：

语音反演声道变量球状轨迹非唯一性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于协同发音的影响，自动语音识别系统的性能会受到影响。已有的研究表明结合发音信息可以提高语音识别系统的性能，但是发音信息在话音环境中并不容易得到，因此语音反演被提了出来。语音反演是一种从语音信号中预测发音轨迹或者声道配置的方法。如果能够准确地预测发音信息，这些发音信息还能有助于语音合成、语言获取以及语音可视化等。论文首先提出使用声道变量作为发音信息（代替传统的球状轨迹）来模式化语音动态，并比较了声道变量和球状轨迹的预测性能和非唯一性。论文将语音分别参数化为梅尔倒谱系数，感知线性预测倒谱系数和线性预测倒谱系数，并使用混合密度网络来预测声道变量和球状轨迹。实验结果表明声道变量比球状轨迹能被更准确地预测。另外，论文使用基于模型的统计公式计算声道变量和球状轨迹的标准化的非唯一性，结果表明对于相同的六个辅音，声道变量的非唯一性比球状轨迹的非唯一性低。论文另一个研究内容为使用四种不同的语音反演的机器学习方法，即前馈人工神经网络、自回归人工神经网络、远端监督学习以及轨迹混合密度网络比较声道变量和球状轨迹，结果表明声道变量比球状轨迹有更好的性能，更适合基于发音器官特征的自动语音识别系统。另外论文分别将语音参数化为梅尔倒谱系数和声学参数，并比较了这四种方法对声道变量的预测性能，结果表明从整体来看三层隐层的前馈人工神经网络对声道变量的预测性能最好。

其他文献

基于数据集缩减的bug分配

在软件开发与维护过程中,bug修复是至关重要的一个环节。快速准确修复bug的关键,是找到能修复bug的开发者,即bug分配。当前人们主要用文本分类方法来解决bug分配问题,然而该

学位

bug分配数据集缩减顺序预测模型特征选择实例选择

基于网络行为的蠕虫检测技术研究

随着计算机技术的发展和网络应用的深入,网络安全受到的威胁日益严重,尤其是恶意代码(计算机病毒、木马、网络蠕虫等)的泛滥对网络应用造成了很大的破坏。在这些恶意代码中,

学位

蠕虫检测模糊模式识别网络行为分类器

华图文库系统设计与实现关键技术研究

随着计算机的普及和现代网络技术的发展,文档在线阅读和共享已经成为现代社会人们获取知识的一种普遍途径。作为对传统出版物的重要补充形式,文档的在线阅读以及下载为人们的

学位

在线文库文档转换文档检索敏捷Web开发

无线传感器网络中模式查询策略的研究

无线传感器网络被应用到越来越多的领域,事件监测是其重要应用之一。模式查询系统是实现事件监测的重要手段之一。由于传感器节点存在诸多限制,本文对模式查询中的模式数据分

学位

无线传感器网络模式查询层次泛洪邻近数据线性拟合

基于Soot框架Java同步优化研究

利用Java字节码文件中的属性,本文提出了一种用于Java程序优化的方法。该方法利用前置改良同步逃逸分析算法,将待优化Java程序中冗余同步操作对象找出,然后将这些信息通过标

学位

Java逃逸分析同步Soot框架属性字节码

社会网络隐私保护及其可用性研究

随着社会网络的飞速发展,越来越多的人们投入到这场新的社交盛宴里,他们通过社会网络沟通交流、分享信息,其中沉淀下来的社会网络关系和用户个人信息,具有非常重要的商业价值

学位

社会网络隐私保护可用性敏感区划分自动设置

基于微波光子技术的低频太赫兹波功率提升及应用研究

太赫兹(THz)波是指0.1～10 THz频段之间的电磁波，它在电磁波谱中位于微波和红外光之间。低频太赫兹波是指频率范围在0.1～0.3 THz之间。近年来，由于太赫兹波在材料、通信、成像和国

学位

微波光子学可饱和吸收光载太赫兹通信系统外调制技术

PMC模型下An,k和Sn,k的条件诊断度

多处理器系统中，故障诊断是一个通过相互测试来识别出系统中的故障处理器的过程，在保障系统可靠度方面起到相对大的作用，并且被许多学者所研究。在1976年，Prepara et al.等人提出

学位

故障诊断PMC模型条件诊断度排列图网络拓扑结构图(nk)-star图

基于多核FPGA的压缩文件高效能口令恢复算法的研究与实现

随着互联网上的压缩文件数量越来越多,涉及秘密信息的加密压缩文件随着人们信息安全意识的增强在不断增多,因此,加密压缩文件的口令恢复对信息安全有至关重要的意义。目前,互联网主流的压缩软件有WinRAR(RAR3和RAR5)、WinZip、7-Zip三种,它们对信息的加密主要以SHA-1、SHA-256算法为核心,并且以AES-128、AES-256以及CRC32等算法作为校验加密来提高安全性,增强破译

学位

基于免疫模型的无线Mesh网网关负载均衡技术研究

摘要：在无线Mesh网络中,网关负载均衡性成为无线Mesh网络性能的“瓶颈”,网关部署策略及性能优化对无线Mesh网的管理和高效运行有重大的战略意义。本文,我们围绕网关负载均衡

学位

无线Mesh网网关部署负载均衡饥饿度免疫模型

基于语音反演机器学习方法的声道模型研究

与本文相关的学术论文