论文部分内容阅读
语音作为人类交流的自然方式,其作为人机交互的手段拥有的先天优势。自动语音识别要为了让计算机能够“听懂”人类的语音,实现由语音序列向文本序列的转化。伴随着深度学习发展,基于深度神经网络的语音识别如今已经成为主流。现在语音识别后端建模有两种框架:混合和端到端架构。在此背景下,本论文集中在两种架构下语音识别的若干建模问题研究。一方面,在混合架构下针对建模中的实用性问题(如时延问题,噪声鲁棒性问题)进行研究,‘减’少实际应用场景(如时延要求、噪声)对性能的影响;另一方面,针对端到端语音识别架构的不足,研究目前端到端模型的合理性问题(如注意力向量优化和多层级标签建模)。通过在模型搭建中加入‘低成本’但有效信息(如后验信息、多层级标签信息),为识别性能做‘加’法。首先、针对语音识别系统的时延问题,本文研究基于长短期记忆(Long Short Term Memory,LSTM)网络的在线语音识别声学建模。单向LSTM网络结构无时延但缺乏对未来时序的利用,双向LSTM网络充分利用了上下文时序信息但存在高时延的缺点。针对在线语音识别声学建模的高性能、时延可控的要求,本文提出了一种基于注意力机制的LSTM层结构(Attention-based LSTM,ALSTM)。ALSTM结构通过LSTM记忆历史时序,通过注意力机制建模一定窗长内的未来时序。实验结果表明由多层ALSTM串联构成的声学模型能获得与基于BLSTM识别系统相仿的性能表现。其次,针对语音识别系统的噪声鲁棒性问题,本文提出了稠密残差网络(Densely Connected Residual Network,DenseRNet),并用于构建声学模型。DenseR-Net采用残差网络的方式构建模型的基础单元,基础单元的连接采用稠密网络的稠密连接的方式。整体可以视为稠密网络和残差网络的融合。DenseRNet通过更充分利用多分辨率的隐层表达使得声学模型更具备鲁棒性。实验结果与可视化分析共同说明,该模型对不同信噪比语音具有鲁棒性。再次、针对注意力向量的优化问题,本文在端到端语音识别模型中探讨了使用模型后验信息对其优化的方法。我们尝试将后验注意力模型引入语音识别中并根据任务的特点进行相应的结构调整。实验表明模型的识别性能未达预期,并且模型受到曝光偏差的影响加剧。注意到该问题,本文进一步提出基于散度距离的惩罚项和交替更新策略(Alternate Learning Strategy,ALS)用于缓解曝光偏差问题。前者通过散度距离损失纠正后验信息使用所带来的曝光偏差,后者通过在编码-解码模型训练阶段引入采用推论方式计算的“辅助步”。实验表明,本文最终提出的扩展后验注意力模型(Extended Posterior Attention Modeling,EPAM)相较于传统的编码-解码模型在语音识别上具备了明显的性能优势。最后,结合现有研究工作中多层级标签建模不成熟、提升效果不明显的问题,本文提出了一种基于多文本序列间对齐映射的多层级标识端到端语音识别建模方法。语音识别中的目标文本序列可以是词级、字符级、子词级文本序列。多层级文本序列的获取成本很低但包含丰富的信息,并且我们注意到多层级文本序列间存在隐性的对齐映射关系。基于以上原因,本文将多文本序列间对齐映射关系引入端到端语音识别建模中,并提出将该对齐关系引入端到端模型搭建和解码过程中。具体来说,本文设计了一个全新的交互解码器结构用于生成多层级的文本输出预测;在解码阶段,本文提出了联合解码算法,该算法可以进一步对多层级预测输出结果进行交叉验证。在Switchboard和WSJ数据集的实验结果共同表明,基于多层级标识的端到端语音识别模型相比于传统的端到端语音识别系统可获得15%以上的相对词错误率下降。