基于RNN-Transducer的端到端长时语音识别模型研究及系统实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:a77115280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的快速发展,人们对人机自由交互的需求日益增大,语音识别技术作为实现人机智能交互的重要技术之一,迅速成为了研究的热点。在深度学习的影响下,端到端语音识别系统在减化语音识别复杂流程的同时,其性能逐渐超过传统算法。但是当前端到端语音识别技术依然面临一些问题与难点:(1)端到端语音识别模型语言建模能力不足;(2)模型对长时语音识别的泛化能力和鲁棒性较差;(3)算法模型参数量大及时间和空间复杂度高。针对以上问题,本文对长时语音识别和语音模型压缩技术展开研究,主要工作如下:1.提出融合语言模型的RNN-Transducer模型。针对端到端语音识别模型无法有效整合语言模型进行联合优化,语言建模能力不足的问题,本文提出了融合语言模型的RNN-Transducer 模型。首先为 RNN-Transducer 预测网络增加语言建模辅助任务,使用多任务学习联合优化方法帮助模型训练。然后利用知识蒸馏算法将外部语言学知识传递给预测网络语言模型,在训练过程中将语言模型集成到RNN-Transducer模型中,进一步提升模型的语言建模能力。经实验证明,本文所提算法可以更好地学习文本信息,并且保证了模型的端到端地训练优化,降低模型字符错误率约1个百分点。2.提出长时音频语音识别算法。针对长时语音识别场景中模型鲁棒性较差的问题,本文提出了长时音频语音识别算法。首先,提出跨句上下文模块用于保留跨句子的历史上下文语义信息,使模型可以更好地学习会话级别的语境信息,提升长时语音识别的性能。然后采用初始化隐层状态的训练方式在训练过程中模拟长时语音训练,提高了模型的识别准确率。经实验表明,本文所提算法在合成长时语音数据上取得了出色的识别准确率,在短句和长句测试集上识别错误率相差不超过1个百分点,有效地提高模型对于长时语音识别场景的泛化能力与鲁棒性。3.提出基于互学习的序列级别知识蒸馏算法。针对语音识别模型参数量大且计算复杂度高的问题,本文提出了基于互学习的序列级别知识蒸馏算法。结合知识蒸馏算法,采用多个不同结构学生模型间的相互学习,引入模型之间的多样性,学习其结构差异性来实现互补,以将老师模型中更多丰富且正确的信息传递给学生模型,进一步提升学生模型的性能。经实验表明,本文所提出的算法可以有效地减少模型参数量及计算复杂度,同时保证语音识别任务的性能,达到了两者较好的平衡。综上所述,本文提出了一种可行、鲁棒、快速的语音识别方法,有效地缓解了端到端模型“语言建模能力不足”、“长时语音识别鲁棒性和泛化能力较差”、“模型参数量大及计算复杂度高”等问题。最后,在本文研究内容的基础上,设计并实现了一个语音识别演示系统。
其他文献
Recently, the pilot-scale tests of a 1000-ton-class methyl methacrylate (MMA) unit owned by the Panjin Industrial Technology Institute under the CAS Dalian Institute of Chemical Physics (DICP) have been successfully completedrnThe said pilot scale project
On August 3, 2021, the Changqing ethane-to-ethylene project owned by the PetroChina Lanzhou Petrochemical Company (LPC) had been put on stream to crank out qualified ethylene product.rnThe construction of this project, located in the Yuheng Industrial Par
The properties and structural changes of unconverted oil (UCO) obtained from ebullated bed hydrogenation at different residue conversion rates were analyzed to clarify the reaction process of heavy components. Meanwhile, the processing routes of UCO, dela
有臭氧型紫外线灯185 nm辐射输出效率直接影响其臭氧产出率.目前我国还没有185 nm紫外线照度计的标准、溯源,没有适合大众使用的成熟统一的185 nm辐射测量方法与测量仪器.本文简述了测量253.7 nm紫外线辐射通量的3种常用方法,验证了Keitz公式测量计算法测量线性紫外线灯辐射通量(辐射功率)的可靠性.采用自行设计的具有创造性的简易适用的测试系统,利用国外185 nm照度计,依据Keitz公式测量计算法测量了不同管径、不同石英玻璃的线性紫外线灯的185 nm紫外辐射参数,并利用动态臭氧测试系统测
直播带货——全新的起跑线rn对于曾经错失电商红利的眼镜行业来说,直播带货无疑是又一次全新的机会.自2020年“直播元年”开启全民直播以来,直播带货便扶摇直上,根据国金证券的研究报告显示,直播带货在电商行业的渗透率已经从2018年的1.74%飙升至2021年上半年的17.9%,换句话说, 2021年已有接近五分之一的网购行为都在直播间发生.
短期业绩变化频繁,总体形势仍显rn虽然总体疫情防控形势保持平稳,宏观经济持续恢复,但眼镜零售对于流动性的高度敏感,也导致了短期内的业绩起伏,过去业界仰赖的经验与做法,似乎在短时间内失效了.例如2021年7月,受南京禄口机场境外输入病例的影响,近十省的人员流动因紧急启动的防控措施而受到限制,眼镜店短期营收大幅度下滑.随着人员流动恢复,购买力逐渐提升,加上暑期青少年配镜潮,从2021年9月开始持续至国庆黄金周的消费复苏又为逆境中的零售业注入了一阵强心针.北京眼镜展之后,因个别确诊案例而再度大幅度收紧的疫情防控
期刊
当前,在政府部门及社会各界的持续关注下,我国的近视防控事业开启了大步迈进时代,而在各地近视防控工作的不断推进中,由验光人才短缺引发的儿童青少年验光不准、眼视光知识科普教育普及力度不够等问题,再度引发了社会各界的关注.
期刊
PBT/PEG1000 composite membranes were prepared by the phase inversion method and were used to dehydrate natural gas. In this study, evaporation time, coagulation bath concentration, and additives in casting solution were investigated, respectively, on the
The CAS Dalian Institute of Chemical Physics (DICP) has made success in manufacturing low-carbon olefins by contacting the syngas doped feed gas with a syngas-to-DME catalyst bed which was also coupled with a DME-to-olefin catalyst bed. The said double-la
视光板块增势明显,引发资本关注rn自2009年爱尔眼科深交所创业板A股上市,民营医疗机构在A股上市的风声渐弱,直至2021年6月,华厦眼科在深交所过会;7月,普瑞眼科过会、朝聚眼科在港交所主板敲锣上市;8月,何氏眼科在创业板过会.民营眼科医院上市热度再起,而这热闹的背后是各大眼科巨头们在近视防控大政策下,对“视光”板块价值的不断深挖.
期刊