论文部分内容阅读
为了解决语音识别中基于卷积位置信息的混合式注意力机制无法提取长期有效位置信息的问题,提出了一种捕捉长期有效位置信息的新型混合式注意力机制。首先,对当前时刻生成的注意力得分作卷积来提取多通道特征图,并通过全局平均池化来得到恒定维度的特征向量;接着,引入长短期记忆网络(long short-term memory,LSTM)单元作为外部记忆模块,并以生成的特征向量作为输入,生成下一时刻的位置信息向量;最后,结合经典的LAS(listen,attend and spell)模型来验证提出方案的有效性。实验