基于注意力机制的普通话语音识别研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jimmil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着注意力机制在自然语言处理等领域的成功应用,基于注意力的端到端语音识别吸引了广泛的关注。然而现有的研究主要是应用于英语语音识别。以往研究表明基于注意力的模型很难与普通话数据收敛是由于普通话使用文字正字法和汉字提供的声音口语信息有限且基于注意力的模型有条件依赖性。为此,研究了多流自注意模型在普通话语音识别上的应用,并设计实现了基于语音识别的字幕生成系统。通过改进在英语语音识别上取得最先进效果的多流自注意模型提高在普通话语音识别上的精度,具体是提出splicing-block替换原模型中的convolution-block。通过叠加采用“3-stage splicing”方法构造的splicing-block增加模型深度提高建模能力,同时使用因式分解降低模型复杂度,使用跳跃连接加强特征传递。多流自注意模型由并行的自注意编码器流组成,每个流中使用特定且相同扩张率的卷积层提取语音特征,随后输入到多头自注意层。在模型训练时使用中文字符作为建模单元,并采用L2正则化、高斯全噪声两种优化技巧。字幕生成系统基于训练的多流自注意模型将用户提供的音频数据识别为中文文本,再经机器翻译后生成双语字幕文件。在模型验证和实验评估部分,使用AISHELL-1语料库验证多流自注意模型在普通话语音识别上的可行性。对模型相关参数进行实验分析并总结出最优配置,加上使用语言模型解码与再评分实现16.20%的字错率。使用splicing-block的模型相对使用convolution-block时字错率降低11.1%。
其他文献
目的:探讨扩张型心肌病(dilated cardiomyopathy,DCM)合并冠状动脉栓塞(coronary embolism,CE)导致急性心肌梗死患者的原因、诊治及预后。方法:分析1例扩张型心肌病伴冠状动脉栓塞导致急性心肌梗死(acute myocardial infarction,AMI)患者的临床资料及诊治过程,并复习文献。结果:41岁男性患者,于2015年2月确诊为扩张型心肌病,一直
目的:探索2016版儿童神经心理行为检查量表(简称儿心量表2016版)在孤独症谱系障碍(ASD)中的临床应用价值,为ASD早期发现和干预提供科学依据。方法:通过收集2019年3月~12月在华中科技大学同济医学院附属同济医院儿童保健中心就诊,诊断为ASD、发育性语言障碍(DLD)、全面发育迟缓(GDD)且年龄在0-6岁之间的共285例患儿的儿心量表2016版、孤独症筛查量表(CHAT-23)、孤独症
目的:本研究旨在探讨螺旋卷曲结构域含蛋白69(CCDC69)与乳腺癌的关系,分析CCDC69的差异表达与乳腺癌的临床病理的关系,并初步探索CCDC69影响乳腺癌的预后的机制。方法:利用GEO数据库中乳腺癌的表达谱芯片数据集筛选出乳腺癌与乳腺正常组织中显著差异表达的基因;通过Onco Lnc挑选出影响乳腺癌患者预后的基因,结合文献检索选择CCDC69作为研究基因,检测GEPIA中与CCDC69相关系
目前关于肠道损伤评估的研究多局限于大鼠和细胞模型,少见秀丽隐杆线虫作为模式生物(Caenorhabditis elegans,C.elegans)用于肠道损伤评估的报道。而C.elegans作为模式生物具有如下生物学特点:体积小;生活史短;易于培养与操作;与人类基因同源性高;无毒无害;广泛应用于毒物的毒性检测与评估。此外,C.elegans在研究肠道损伤方面具有独特优势:身体透明;肠道经染料染色后
第一部分尿金属浓度与高尿酸血症的相关性研究目的:探究尿中多种金属的浓度与老年人高尿酸血症发生风险的相关性。方法:基于深圳市老年相关疾病队列(The Shenzhen Aging Related Disorder Cohort)的基线人群9411名(≥60岁,有深圳市户籍),先排除自报肾病者36人和估算肾小球滤过率小于60m L/min per 1.73m~2的1022人,又剔除本研究中相关信息缺失
"工业区位与布局"可以说是高考地理命题频率最高的考点之一,年年岁岁题相似,岁岁年年又不同。研究全国新课标卷、北京卷、天津卷后,不难发现,2019年高考对"工业区位与布局"的考查既传统又创新,充分体现了新课改的理念。研究高考试题,一方面寻求命题视角,总结规律,完善备考时知识体系;另一方面从高考题中,捕捉时代信息,预测下一年的命题方向,制定高效的备考策略。为此,笔者对2019年涉及"工业"的考题
期刊
网络切片已被视为5G支持多种服务和应用场景的关键推动力之一。本文利用通信网络提供的频谱资源和共存的雾计算网络的计算资源来研究跨系统分布式网络切片。在通信和计算网络之间快速准确地分配资源是跨系统资源网络切片的一大挑战。因此,为了解决上述问题,本文首先提出了一种基于新的控制平面实体,联邦协调器(F-orchestrator)的新颖的分布式框架,该框架中,F-orchestrator可以部署在租户与物理
目的:前列腺癌在世界范围内危害着老年男性的健康状态。根治性前列腺切除术是目前对局限性前列腺癌病人的标准治疗手段之一。该治疗手段取得了很好的肿瘤控制效果,但由于对患者勃起功能和控尿功能的影响,降低了患者术后生活质量。因此,创伤性更小的治疗,近距离放疗或可成为一种可替代选择。目前尚不清楚,对于局限性前列腺癌病人,根治性前列腺切除术与近距离放疗这两种方式哪一种更加有效。我们通过开展Meta分析以比较与评
目的:批判性思维是医务工作者评估、诊断、治疗患者的关键,医学生批判性思维的培养越来越受到重视,但关于医学生批判性思维的研究主要集中在护理领域,对临床医学生批判性思维影响因素的研究较少。探究是学生进行创新的关键,但目前没有关于临床医学生探究影响因素的研究。本研究调查了临床医学生批判性思维倾向状况,并研究了影响医学生批判性思维倾向和探究的因素以及这些影响因素之间的关系。方法:对华中科技大学同济医学院全
随着5G技术的发展成熟,全球掀起了新一轮通信基础设施建设热潮,制造通信设备所需的微波器件需求量大大提高。5G技术对于微波器件性能的要求更为苛刻,对于器件本身的可靠性,稳定性有着更高的要求。目前5G基站用小型化微波滤波器主要以高介电常数、低损耗的微波陶瓷材料为基材,其电性能优异,但也存在着烧结过程易导致同批次产品间尺寸不均,材料硬度大难加工等问题。而复合材料具有易加工,重量轻,与聚合物亲和性好的优点