复杂噪声环境下语音识别研究

来源 :武汉邮电科学研究院 | 被引量 : 3次 | 上传用户:coniji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机交互的不断发展,要求自动语音识别(ASR)能够在真实世界的各种噪声和其他声学干扰条件下保持鲁棒性。复杂噪声环境下语音识别的低准确性引起了学者们的广泛关注。当前主流方法可大致分为三类:基于寻找新特征的、基于噪声环境分类的、基于语音增强的。本文使用伽马通滤波器倒谱系数作为复杂噪声环境下的语音特征,并设计一种基于卷积神经网络与长短时记忆网络相结合的语音识别方法,提取训练语音的谱图,利用注意力网络进行自适应特征细化。然后将注意图与输入特征图相乘,实现噪声环境下的语音识别。本文主要论述了:(1)语音信号处理的基本任务。将处理任务分类为三大类,包括语音识别、自然语言处理、语音合成,并着重介绍了与本文相关的语音识别问题,阐述了其所包含的文本识别、声纹识别、情感识别三个子问题所运用的声学模型。(2)语音识别问题的处理方法。对语音信号进行预滤波、预加重、分帧、端点检测等处理的目的,并介绍常用语音信号的特征以及各特征在噪声环境的表现,藉此引入噪声对语音识别的影响。(3)不同特征在噪声环境中的识别能力有所差异。GFCC特征相比传统主流特征具有更好的抗噪性能,在不同噪声环境中表现均优于MFCC特征。(4)基于神经网络的噪声环境下语音识别。介绍了传统降噪模型与噪声分类模型的局限性以及注意力模型的优势。实验结果表明,本文所提算法在不同场景噪声中均有较好表现,与噪声分类模型相比,在已知噪声类型情况下,二者识别效果大致相当,面对未知噪声,识别效果提升约3%,有效提高了低信噪比环境下语音识别的准确率,基本实现了复杂噪声环境下的语音识别。
其他文献
踝关节骨折是创伤骨科医师最常见的损伤之一。制定踝关节骨折手术固定的方案需要了解关节的骨性和韧带解剖结构以及正常的踝关节生物力学。这些损伤的手术治疗旨在解剖复位、
MⅢ总线是某军用飞机上的一种非标准的并行信息传输总线标准,总线地址数据独立,采用半双工工作方式,总线终端工作状态分为总线控制、远程终端和总线监控。在外场测试实验系统
随着我国工业污水和生活污水排放逐年增加,污水处理厂的污泥也大幅增加,难以处理,且处理费用较高,已然成为了严重的环境与社会问题,因传统的填埋法,污泥未经特殊处理就直接置
第三次全国文物普查,进一步摸清了我国不可移动文物的家底,查明了目前存在的比较突出的问题。本文结合第三次全国文物普查的情况和存在的问题,对我国今后的不可移动文物的保
目的总结克氏针结合近端锁定接骨板双排筏技术治疗胫骨外侧平台骨折的应用价值。方法回顾性分析临沂市中心医院2016年9月—2018年9月采用双排筏技术治疗的24例胫骨平台骨折患
以16位单片机MC9S12XS128为控制核心,选用MMA8452三轴的数字加速度传感器作为系统的检测模块,设计和实现了基于自由摆平板的跟踪运动控制系统;选用混合式步进电机作为执行机构,实