深度学习语音识别系统中的若干建模问题研究

来源 :中国科学技术大学 | 被引量 : 4次 | 上传用户:ly_exe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为人类交流的自然方式,其作为人机交互的手段拥有的先天优势。自动语音识别要为了让计算机能够“听懂”人类的语音,实现由语音序列向文本序列的转化。伴随着深度学习发展,基于深度神经网络的语音识别如今已经成为主流。现在语音识别后端建模有两种框架:混合和端到端架构。在此背景下,本论文集中在两种架构下语音识别的若干建模问题研究。一方面,在混合架构下针对建模中的实用性问题(如时延问题,噪声鲁棒性问题)进行研究,‘减’少实际应用场景(如时延要求、噪声)对性能的影响;另一方面,针对端到端语音识别架构的不足,研究目前端到端模型的合理性问题(如注意力向量优化和多层级标签建模)。通过在模型搭建中加入‘低成本’但有效信息(如后验信息、多层级标签信息),为识别性能做‘加’法。首先、针对语音识别系统的时延问题,本文研究基于长短期记忆(Long Short Term Memory,LSTM)网络的在线语音识别声学建模。单向LSTM网络结构无时延但缺乏对未来时序的利用,双向LSTM网络充分利用了上下文时序信息但存在高时延的缺点。针对在线语音识别声学建模的高性能、时延可控的要求,本文提出了一种基于注意力机制的LSTM层结构(Attention-based LSTM,ALSTM)。ALSTM结构通过LSTM记忆历史时序,通过注意力机制建模一定窗长内的未来时序。实验结果表明由多层ALSTM串联构成的声学模型能获得与基于BLSTM识别系统相仿的性能表现。其次,针对语音识别系统的噪声鲁棒性问题,本文提出了稠密残差网络(Densely Connected Residual Network,DenseRNet),并用于构建声学模型。DenseR-Net采用残差网络的方式构建模型的基础单元,基础单元的连接采用稠密网络的稠密连接的方式。整体可以视为稠密网络和残差网络的融合。DenseRNet通过更充分利用多分辨率的隐层表达使得声学模型更具备鲁棒性。实验结果与可视化分析共同说明,该模型对不同信噪比语音具有鲁棒性。再次、针对注意力向量的优化问题,本文在端到端语音识别模型中探讨了使用模型后验信息对其优化的方法。我们尝试将后验注意力模型引入语音识别中并根据任务的特点进行相应的结构调整。实验表明模型的识别性能未达预期,并且模型受到曝光偏差的影响加剧。注意到该问题,本文进一步提出基于散度距离的惩罚项和交替更新策略(Alternate Learning Strategy,ALS)用于缓解曝光偏差问题。前者通过散度距离损失纠正后验信息使用所带来的曝光偏差,后者通过在编码-解码模型训练阶段引入采用推论方式计算的“辅助步”。实验表明,本文最终提出的扩展后验注意力模型(Extended Posterior Attention Modeling,EPAM)相较于传统的编码-解码模型在语音识别上具备了明显的性能优势。最后,结合现有研究工作中多层级标签建模不成熟、提升效果不明显的问题,本文提出了一种基于多文本序列间对齐映射的多层级标识端到端语音识别建模方法。语音识别中的目标文本序列可以是词级、字符级、子词级文本序列。多层级文本序列的获取成本很低但包含丰富的信息,并且我们注意到多层级文本序列间存在隐性的对齐映射关系。基于以上原因,本文将多文本序列间对齐映射关系引入端到端语音识别建模中,并提出将该对齐关系引入端到端模型搭建和解码过程中。具体来说,本文设计了一个全新的交互解码器结构用于生成多层级的文本输出预测;在解码阶段,本文提出了联合解码算法,该算法可以进一步对多层级预测输出结果进行交叉验证。在Switchboard和WSJ数据集的实验结果共同表明,基于多层级标识的端到端语音识别模型相比于传统的端到端语音识别系统可获得15%以上的相对词错误率下降。
其他文献
对大型游乐设备的设计,温度对整体结构的影响是不可忽视的因素。详细介绍了温度载荷的类型及产生的机理,并以大型游乐设施摩天轮为研究对象,利用ANSYS Workbench软件与有限元
燃气锅炉排放的大气污染物主要以颗粒物、SO2和NOx为主,本文以天津某项目锅炉为例,分析了在不同烟囱内径和高度的情况下,锅炉对大气环境水平和垂向的影响。
低强度超声波辐照可提高微生物活性,促进污水生物处理效率,因而被认为是一项很有发展前景的新技术。厌氧生物处理低浓度污水存在一些急需解决的问题,例如:在低温下厌氧微生物
目的应用二维斑点追踪应变成像(2D-STI)评估慢性肾脏病(CKD)患者左室功能,探讨左室整体纵向峰值应变(GLS)与肾功能的相关性。方法连续入选经我院确诊为CKD的患者69例,根据肾
广西民族学院覃国生副教授编著的《壮语方言概论》和韦达副教授编著的《汉壮翻译理论与技巧》两书于1996年7月由广西民族出版社出版。《壮语方言概论》内容有:方言基础知识,
西方马克思主义的伦理思想具有如下主要特征。首先,西方马克思主义的伦理思想呈现出一个十分明显的对马克思主义伦理思想和现实道德层面逐渐增强关注和研究的发展过程;其次,
将模糊控制理论应用于BTT导弹动态逆系统控制中,设计了BTT导弹控制系统鲁棒模糊控制器。首先应用动态逆系统方法设计BTT导弹控制器,然后用参数化线性模糊逻辑系统逼近动态逆控制器中的不确定项,并设计了自适应律以调整参数的变化,最后根据Lyapunov稳定性定理,证明了所提出的方法能保证BTT导弹控制系统是渐近稳定的,系统的跟踪误差将收敛到零。仿真结果表明,设计的控制器,对参数和外界扰动等不确定因素具
阅读是学生获得知识的重要途径。因此,提高学生的阅读能力对学生有很大的影响。阅读教学在初中英语教学中占有非常重要的地位,但目前大多数教师仍然采用以教师为中心的教学模式,阅读教学内容主要集中在词汇和语法教学上,缺乏对阅读教学的整体性的分析,导致学生们无法理解课文的主要意义。因此,教师迫切需要探索可行的教学方法,提高初中英语阅读教学的效率。思维导图是英国著名心理学家托尼·布赞在20世纪60年代开发的一种
针对近海潜器中导管螺旋桨的推力特性研究,提出了根据速度场,利用半隐式求法,求解压力耦合方程组,进而求得螺旋桨的推力特性的思路。重点阐述了控制方程的求解,通过雷诺应力
研究了煤矿安全监测及灾害预警的检测问题,提高检测的准确性。已有的煤矿安全监测技术多是基于单层传感网络设计,当瓦斯等危险气氛浓度泄露受到外界干扰,容易发生检测节点特征退化,传统方法抗噪能力差,效率低,监测结果不稳定。为了解决这一问题,提出一种基于改进最大熵算法的井下实时监控与灾害监测预警系统设计方法。设计了基于抗干扰的最大熵检索建模功能,快速计算跳数和能耗信息,实现安全隐患的准确检测。仿真结果表明,