耳语音转换正常语音及耳语音识别建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：maldininikanjun

【摘要】

：

耳语音是一种有别于正常语音的常见发音方式,广泛地应用于人们的日常交流当中。由于发音器官进行耳语音发声时,声带没有振动,导致耳语音的浊音部分没有基频,并导致耳语音的频

【作者】

：

李景杰

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2015年期

【关键词】

：

耳语音耳语音转换耳语音识别正弦语音分析高斯混合模型受限玻尔兹曼机深层神经网络知识传递说话人自适应

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

耳语音是一种有别于正常语音的常见发音方式,广泛地应用于人们的日常交流当中。由于发音器官进行耳语音发声时,声带没有振动,导致耳语音的浊音部分没有基频,并导致耳语音的频谱结构与正常语音存在很大不同。这一发音特点不仅导致耳语音的能量较低,而且也使得其自然度和可懂度比同样条件下的正常语音低。本文主要针对耳语音转换正常语音及耳语音识别的建模方法进行研究。耳语音转换正常语音的目的将一个人的耳语音通过某种方式转换成正常语音,以提高耳语音的自然度和可懂度。在公共场所,人们出于隐私或者避免打扰他人的考虑,在语音通话时通常会采用耳语音。但是现有的通信系统都是针对正常语音发展而来,对耳语音支持度不高。耳语音转换技术有望可以提高耳语音通话的可懂度和自然度。此外,耳语音转换也可以应用在失音患者的辅助发音当中。本文先后进行了基于规则和基于统计的耳语音转换研究。基于规则的转换模型具有高效快速、不需要训练数据等优点,而基于统计的转换模型需要训练数据,实时性也稍逊一筹,但是其转换音质较高,因此都具有研究价值。已有的基于码激励线性预测编码器(Code exited linear prediction, CELP)的耳语音转换模型不仅频谱转换规则复杂,需要对耳语音音素进行预分类,而且又存在基频生成规则过于简单的问题,使得其转换语音音质不佳,而且难以应用在连续耳语音的转换任务当中。为此,本文提出了基于正弦语音(Sinewave speech, SWS)合成的耳语音转换模型。这种模型不仅更加简洁,去掉了耳语音预处理模块,加入了根据共振峰估计基频的模块,而且可以作用于连续耳语音的转换,并使得转换语音的音质有了一定的改善。在基于统计的耳语音转换模型研究中,本文针对传统基于高斯混合模型(Gaussian mixture model, GMM)的耳语音频谱转换模型难以对维间相关性和高维谱包络建模的不足,提出将受限玻尔兹曼机(restricted Boltzmann machine, RBM)应用于耳语音频谱转换建模。由于RBM不仅支持高维的谱包络输入,而且对维间相关性具有较强的建模的能力,使得该模型的转换语音相对GMM模型的转换语音有了明显的主观听感提升。此外,本文还尝试了将深层神经网络(Deep neural network, DNN)用于耳语音频谱转换的建模当中。采用标准的RBM逐层预训练和最小均方误差准则(Minimum mean square error, MMSE)有监督训练得到的DNN,在训练数据较少的情况下容易出现过拟合现象,且网络训练容易受奇异数据影响。为此,本文提出了一种半监督(Semi-supervised)耳语音转换DNN训练流程。在该流程中,各采用一个RBM分别对耳语音和并行的正常语音谱包络参数空间建模,并通过训练得到的模型计算RBM隐层数据,这相当于对谱包络参数进行二值编码。然后,用MMSE准则训练DNN中间网络,建立耳语音谱包络二值编码到正常语音谱包络二值编码的映射关系。最后,将两两端的RBM和DNN中间网络组合成完整的DNN,完成耳语音谱包络参数到正常语音谱包络参数的转换。主观听感实验表明,这种半监督DNN不仅相对标准DNN有了明显的听感提升,而且相对RBM模型也有了一定的主观听感改善。最后,本文在DNN-HMM混合模型框架下对耳语音识别的声学模型建模方法进行了研究。由于耳语音的频谱比较平缓,不同音素之间的声学特征区分性比较小,使得传统的GMM-HMM声学模型在耳语音识别任务上识别率不佳。DNN不仅支持高维的上下文声学特征输入,而且逐层特征提取的结构也更利于建立频谱特征到HMM状态的深层映射关系,相对传统的GMM-HMM更加适合对耳语音进行建模。同时,为了解决耳语音数据资源不足难以进一步提高DNN声学模型性能的难题,本文提出了一种基于知识传递(Knowledge transfer, KT)的耳语音DNN训练流程,可以将海量的正常语音数据和模型资源用于耳语音DNN的训练,大幅提升了耳语音的识别率。此外,由于耳语音中说话人信息收到损失,用于正常语音说话人DNN自适应方法在耳语音说话人自适应中面临很大的不确定性。本文分别进行了基于DNN特征域和模型域的耳语音说话人自适应验证实验,发现可以通过DNN有监督训练的方法从耳语音提取到有效的说话人信息,并且如果将该信息通过全连接矩阵输入到DNN的隐层和输出层,得到的说话人自适应模型在仅需要少量注册数据的情况下,就可以相对说话人无关模型取得一定的识别率提升。

其他文献

工程项目的信息管理实践

摘要：随着我国加入WTO，面对国内外的竞争压力，通过采用提高工程项目建设过程中的信息管理水平，加以科技手段的辅助，提高企业竞争力，提高建设项目管理的效率，日渐成为趋势。笔者以工程项目管理的实践，初探工程项目的信息管理的工作，积累了一定的工作经验。　　关键词：工程项目信息管理　　一、工程项目信息管理的现状　　工程项目的管理过程涉及建设方、设计方、施工方、监理方等多方的参与，需要处理和协调项目成本、

期刊

盲自适应多用户检测技术的研究

针对码分多址技术存在多址干扰(Multi-access Interference, MAI)的问题,盲多用户检测技术利用干扰用户信息进行联合检测,而且不需要训练序列和干扰用户的先验知识,具有优良

学位

盲自适应多用户检测MMSE信号子空间NICD收缩跟踪

基于多相滤波的星上数字波束形成网络中关键技术的研究

本文主要研究星上接收数字波束形成网络中的两项关键技术:数字正交下变频和数字分路。采用基于多相滤波的数字正交下变频和数字分路技术可大大降低设备复杂度,并有效降低处理

学位

多相滤波数字下变频数字分路数字波束形成

基于高光谱成像的负性情感识别

传统的生理信号情感识别主要是通过分析皮肤电、心电、呼吸等信号来实现,属于直接性测量,在应用上会带来不便之处。本文提出的基于高光谱成像技术的远距离检测方法能够非接触

学位

面部血氧图负性情感情感识别Beer-Lambert law光学模型算法

油气井多层管柱电磁探伤技术研究

套管损坏将直接影响油气井的使用寿命及油气田产量，国内现有的套管探测仪采用的是机械式装置，只能测出套管内径的损伤情况，并且作业费用高，工作效率低。为了能够及时检测套管损坏

学位

瞬变电磁法套管检测多层管柱石油工业井下设备

基于ARM的嵌入式Linux操作系统的移植研究

近年来，随着计算机技术、通信技术的飞速发展，特别是互联网的迅速普及和3C（计算机、通信、消费电子）技术的合一，微型化和专业化成为计算机领域发展的新趋势，嵌入式产品己经成为了信

学位

ARM技术Linux操作系统嵌入式平台移植工作引导程序内核结构

建设项目设计阶段的造价控制

工程造价控制贯穿于项目建设全过程，但是必须重点突出。很显然，工程造价控制的关键在于施工前的投资决策和设计阶段，而在项目作出投资决策后，控制工程造价的关键在于设计。设计阶段对工程造价的影响占到75％以上，设计的优劣直接影响建设费用的多少和建设周期的长短。　　有效地控制工程造价，在设计阶段应注意做好以下几点：　　1 推行设计招标制度　　目前，设计市场比较混乱，“僧多粥少”，竞争日趋激烈。出现了挂靠设计

期刊

高分辨率图像声纳的数据采集及图像处理

高分辨率图像声纳的数据采集系统可以实现水下运动目标的三维运动轨迹定位信息的外部的测量，它采用两台多波束图像声纳组合成一定交角同步测量，分别获取目标相对定位信息，以合成

学位

数据采集锁相环PCIWDM驱动程序图像处理

面向应用层的网络设备验证平台的研究与实现

随着互联网的飞速发展和宽带技术的不断出现,互联网当中出现了一些日益突出的信息安全问题,为了保障安全,在特定情形下需要对网络上的内容进行监控或者还原,并能够对数据包应

学位

网络设备验证平台应用层协议前端验证技术

ICN网络中标签导向转发与缓存规划机制研究

内容中心网络(Information Centric Network,I CN)因为符合用户对内容的获取需求高于了解内容所在位置这一特性,已成为未来网络体系结构研究的热点。命名的数据网络(Named Da

学位

内容中心网络NDN兴趣包转发内容缓存传输延迟集中式路由计算

耳语音转换正常语音及耳语音识别建模方法研究

与本文相关的学术论文