论文部分内容阅读
人机交互的不断发展,要求自动语音识别(ASR)能够在真实世界的各种噪声和其他声学干扰条件下保持鲁棒性。复杂噪声环境下语音识别的低准确性引起了学者们的广泛关注。当前主流方法可大致分为三类:基于寻找新特征的、基于噪声环境分类的、基于语音增强的。本文使用伽马通滤波器倒谱系数作为复杂噪声环境下的语音特征,并设计一种基于卷积神经网络与长短时记忆网络相结合的语音识别方法,提取训练语音的谱图,利用注意力网络进行自适应特征细化。然后将注意图与输入特征图相乘,实现噪声环境下的语音识别。本文主要论述了:(1)语音信号处理的基本任务。将处理任务分类为三大类,包括语音识别、自然语言处理、语音合成,并着重介绍了与本文相关的语音识别问题,阐述了其所包含的文本识别、声纹识别、情感识别三个子问题所运用的声学模型。(2)语音识别问题的处理方法。对语音信号进行预滤波、预加重、分帧、端点检测等处理的目的,并介绍常用语音信号的特征以及各特征在噪声环境的表现,藉此引入噪声对语音识别的影响。(3)不同特征在噪声环境中的识别能力有所差异。GFCC特征相比传统主流特征具有更好的抗噪性能,在不同噪声环境中表现均优于MFCC特征。(4)基于神经网络的噪声环境下语音识别。介绍了传统降噪模型与噪声分类模型的局限性以及注意力模型的优势。实验结果表明,本文所提算法在不同场景噪声中均有较好表现,与噪声分类模型相比,在已知噪声类型情况下,二者识别效果大致相当,面对未知噪声,识别效果提升约3%,有效提高了低信噪比环境下语音识别的准确率,基本实现了复杂噪声环境下的语音识别。