基于Lombard语音转换的近端听音增强算法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户：tonykaier

【摘要】

：

凭借强大的移动通信网络和终端设备,人们能够随时随地便捷地进行语音甚至视频通信。然而复杂多变的通信场景有时也会伴随着外界环境的噪声干扰,影响语音的质量和可懂度,降低

【作者】

：

程枫

【出处】

：

武汉大学

【发表日期】

：

2019年01期

【关键词】

：

语音可懂度近端听音增强 Lombard效应循环神经网络多任务学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

凭借强大的移动通信网络和终端设备,人们能够随时随地便捷地进行语音甚至视频通信。然而复杂多变的通信场景有时也会伴随着外界环境的噪声干扰,影响语音的质量和可懂度,降低了通信双方的信息交换效率。近端听音增强的主要目标就是提升语音的可懂度。当说话人在噪声环境下说话时,为了使听音者更加清晰的听到说话内容,说话人会根据环境噪声本能地调整发声方式,通过改变语音的声压级、基音频率、发音持续时间等特征,使语音信号在噪声环境中具备更强的抗噪能力,这种效应称之为“Lombard效应”,所产生的语音称之为“Lombard语音”。利用这一规律,在移动通信中,通过提前修改语音的声学特征,使其弱化或者避免由外部声场引入失真的影响,增强语音的抗噪能力,提升语音通信的质量和效率。当前的算法可以主要分为两类:基于固定规则的方法和基于统计学习的方法。在基于规则的方法中,研究者通过自身知识构建固定的语音调整策略研究者通过自身知识构建固定的语音调整策略。在基于统计学习的方法中,通过录制语音内容相同的普通正常语音和处于噪声环境时发出的Lombard语音,提取相关的特征参数构建特征转换的映射模型,将普通语音转换为人工合成的Lombard语音。这些方法都一定程度上提升了语音在噪声环境下的可懂度,但是当前方法所设定的语音调整规则和使用的特征映射模型,存在对普通语音到Lombard语音特征复杂非线性变换描述能力不足、对语音时序信息应用不充分,未有效利用特征间相关性等问题。针对这些问题,本文基于深度神经网络技术逐步提出了多个模型,并分别通过实验验证所提出模型的有效性。对于当前模型对普通语音到Lombard语音特征变换描述能力不足和输出参数过于平滑,对时序相关性的利用不足的问题,本文依据神经网络通常对复杂非线性变换具有更好的拟合能力的优势,研究了基于循环神经网络的近端听音增强方法,弥补了深度神经网络在在时序建模能力上的不足。通过主客观实验表明,本文提出的基于LSTM的近端听音增强算法使得语音在嘈杂环境下的误识别率最高降低了约17.8%,优于当前其它的方法,同时在语音自然度的保留上优势明显。同时,针对当前基于统计学习方法的Lombard语音特征映射中未有效利用特征间相关性等问题,本文研究了基于多任务学习的近端听音增强算法,通过将其它声学特征作为辅助任务引入原有的模型,构建共享网络权值的多任务学习的映射框架,使得误识别率最高降低了约21.7%,进一步增强了模型的学习能力和鲁棒性。

其他文献

微动目标特征提取时频分析方法研究

随着制导系统的不断完善,假目标和诱饵能够表现出和真实目标几乎相同的特性,包括运动轨迹、雷达散射截面积、表面材料和几何特征等,使对非合作目标的识别变得越来越困难,这就

学位

雷达微动目标时频分析微多普勒信号特征参数

成年人法定监护制度研究

世界各国逐渐重视成年人法定监护领域,相继进行了一系列成年人法定监护制度的改革。在我国,各种残障人口基数庞大,存在老龄化趋势加剧等情况,这些需要被监护的人如何被更好地

学位

成年监护法定监护实证研究立法对策

中厚耐磨钢板马氏体/奥氏体复相组织调控

近年来钢铁研究总院对含Ti耐磨钢的研发,采用淬火+回火的热处理工艺获得马氏体基耐磨钢,提高了钢的耐磨性,但韧塑性也有所降低。钢中的奥氏体相在摩擦磨损时TRIP效应使得表面

学位

中厚钢板动态配分空冷淬火残余奥氏体

开滦深部煤层群上行开采覆岩运移规律研究

开滦林西矿深部生产水平首采区域为大采深、高应力、建(构)筑物下开采,为实现矿井生产水平、生产能力的均衡有序衔接,满足地表建(构)筑物保护需要,煤层群采取上行开采的方式

学位

深部煤层上行开采覆岩运移数值模拟矿压监测

审计师经验、媒体关注与审计质量

作为市场经济监督体系重要的制度安排,独立审计可以为社会提供可靠和相关的经济信息,这有利于资本市场的多层次建设和国民经济的健康有序发展。目前我国经济已进入新常态,在

学位

媒体关注审计质量审计师经验盈余管理

供电子基团修饰对NNI-R系列分子的光物理性质的影响

由于室温磷光（Room temperature phosphorescent,RTP）有机分子的三重态具有较长的发射寿命,以及较长的激子迁移距离,因此在有机发光二极管、光动力疗法、生物传感器和生物成像

学位

室温磷光供电子基团电荷转移激发荧光速率系间窜越速率

钩钢板和克氏针张力带治疗锁骨远端骨折的效果比较

目的:比较锁骨钩钢板和克氏针张力带治疗锁骨远端骨折的远近期治疗效果。方法:将在2015年8月到2017年10月之间就诊于我院被诊断为NeerⅡ型锁骨远端骨折且无手术禁忌的30例成年患者分为两组:锁骨钩钢板组和克氏针张力带组。随访过程中观察术后皮肤切口愈合情况、骨折愈合及内固定位置情况通过拍摄锁骨全长位X线片查看,评估患者术前及术后疼痛评分,并采用Constant评分系统评估随访时患者肩关节功能。结

学位

锁骨远端骨折锁骨钩钢板克氏针张力带治疗效果

基于实例推理的加筋复合材料结构撞击载荷识别技术研究

复合材料具有比强度高、比刚度高和性能可设计等优点,使得飞行器结构复合材料化成为了现代飞行器的发展趋势,是飞行器先进性的重要标志。相比于金属材料,复合材料的抗撞击性

学位

实例推理加筋复合材料层合板撞击载荷识别应力波传播特性撞击实例库

应用于超声细胞生物效应研究的低强度脉冲超声设备开发

在医学领域的治疗技术方面,低强度脉冲超声LIPUS(Low Intensity Pulse Ultrasound),是应用超声波机械效应、热效应、空化效应等对生物组织产生有益的影响(促进细胞增殖,加强

学位

超声细胞生物效应低强度脉冲超声多参数连续可调嵌入式MCU+CPLD移动部件

有机框架材料的非共价聚合物修饰及其Pickering乳液性能研究

金属有机框架材料（Metal Organic Frameworks,MOFs）和共价有机框架材料（Covalent Organic Frameworks,COFs）分别是由配位键和共价键作用而形成的多孔框架材料,因其高比表面积、高

学位

共价有机框架金属有机框架非共价键修饰Pickering乳液非均相催化

基于Lombard语音转换的近端听音增强算法研究

其他学术论文