论文部分内容阅读
凭借强大的移动通信网络和终端设备,人们能够随时随地便捷地进行语音甚至视频通信。然而复杂多变的通信场景有时也会伴随着外界环境的噪声干扰,影响语音的质量和可懂度,降低了通信双方的信息交换效率。近端听音增强的主要目标就是提升语音的可懂度。当说话人在噪声环境下说话时,为了使听音者更加清晰的听到说话内容,说话人会根据环境噪声本能地调整发声方式,通过改变语音的声压级、基音频率、发音持续时间等特征,使语音信号在噪声环境中具备更强的抗噪能力,这种效应称之为“Lombard效应”,所产生的语音称之为“Lombard语音”。利用这一规律,在移动通信中,通过提前修改语音的声学特征,使其弱化或者避免由外部声场引入失真的影响,增强语音的抗噪能力,提升语音通信的质量和效率。当前的算法可以主要分为两类:基于固定规则的方法和基于统计学习的方法。在基于规则的方法中,研究者通过自身知识构建固定的语音调整策略研究者通过自身知识构建固定的语音调整策略。在基于统计学习的方法中,通过录制语音内容相同的普通正常语音和处于噪声环境时发出的Lombard语音,提取相关的特征参数构建特征转换的映射模型,将普通语音转换为人工合成的Lombard语音。这些方法都一定程度上提升了语音在噪声环境下的可懂度,但是当前方法所设定的语音调整规则和使用的特征映射模型,存在对普通语音到Lombard语音特征复杂非线性变换描述能力不足、对语音时序信息应用不充分,未有效利用特征间相关性等问题。针对这些问题,本文基于深度神经网络技术逐步提出了多个模型,并分别通过实验验证所提出模型的有效性。对于当前模型对普通语音到Lombard语音特征变换描述能力不足和输出参数过于平滑,对时序相关性的利用不足的问题,本文依据神经网络通常对复杂非线性变换具有更好的拟合能力的优势,研究了基于循环神经网络的近端听音增强方法,弥补了深度神经网络在在时序建模能力上的不足。通过主客观实验表明,本文提出的基于LSTM的近端听音增强算法使得语音在嘈杂环境下的误识别率最高降低了约17.8%,优于当前其它的方法,同时在语音自然度的保留上优势明显。同时,针对当前基于统计学习方法的Lombard语音特征映射中未有效利用特征间相关性等问题,本文研究了基于多任务学习的近端听音增强算法,通过将其它声学特征作为辅助任务引入原有的模型,构建共享网络权值的多任务学习的映射框架,使得误识别率最高降低了约21.7%,进一步增强了模型的学习能力和鲁棒性。