融合语言模型的端到端中文语音识别算法

来源 :电子学报 | 被引量 : 0次 | 上传用户:liongliong557
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep?Speech2模型相比字错误率降低了28%.
其他文献
近些年来,锂离子动力电池的商业化应用愈加广泛,人们对其期望也越来越高.温度是影响锂离子电池性能的重要因素,在低温下运行时,动力电池常因容量急剧下降,难以充电等问题被限制使用.讨论了低温下电解液中各组成部分对动力电池性能的影响,综述了低温电解液的改性方法,并对动力电池低温性能的研究前景进行了展望.
为解决低照度图像增强过程中噪声放大、细节不足以及色彩还原问题,本文提出一种基于注意力机制残差密集生成对抗网络(Attention Residual Dense?Generative Adversarial Networks,ARD?GAN)的低照度图像增强方法.首先,该方法在全局光照估计模块(Global Illumination Estimation Module,GIEM)中生成全局曝光注意力图,以引导后续模块更好地进行照度增强;其次,使用卷积残差模块(Convolution and Residual
为解决非正交多址接入(NOMA)技术在毫米波Massive MIMO系统中用户的分组受限于基站波束宽度的问题,提出了一种能够产生指向多个方向的波束的波束赋形方案.基于该多波束波束赋形方案,建立了多小区多用户场景下的用户资源分配的数学模型.为降低计算的复杂性,采用两阶段的资源分配算法.在第一阶段中,在给定的功率分配条件下将模型转化为联盟博弈中联盟的生成问题,并提出一种通过迭代确定用户分组和天线单元分配的算法;在第二阶段中,通过将非凸的数学优化问题转化为DC规划问题,提出用户功率分配的算法.仿真结果表明,本文