基于深度学习的语音关键词识别技术研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:surezheng12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,相比于传统的基于大词汇量连续语音识别的关键词检索方法,基于深度学习的关键词识别方法变得流行起来。传统的关键词检索方法由于各个组成部分独立进行训练,导致整体性能并不能得到完全的发挥,且在进行连续语音识别时速度较慢且需要较大的存储空间。而端到端关键词识别系统可以很好的克服上述缺点,因此本文主要研究无需语音识别的端到端关键词识别系统框架,对其进行了改进和实现。论文主要工作如下:1.研究了无需语音识别的端到端关键词识别系统,对其进行了工程实现。在端到端关键词识别系统中,输入一个文本格式的关键词和待检测的音频对象,直接输出1/0分别表示该关键词是/否出现在音频中。系统由三部分构成:文本编码器用于得到关键词的向量表示,其用一个字符级的语言模型实现;声学编码器用于得到音频的向量表示,其用一个循环神经网络实现;关键词识别模型将关键词的向量和音频的向量表示作为输入,计算得到最终的识别结果,用一个前向网络实现。基于AISHELL和RASC863语料库的实验表明,其整体的准确率和ATWV分别为62.5%和-82.3406。虽然和传统的关键词检索方法有性能差距,但该系统需要的关键词标注数据量和训练时间相比于传统的关键词检索系统分别减少了90%和80%。2.在无需语音识别的端到端关键词识别系统的基础上,针对声学编码器记忆能力有限、对长语音序列编码能力不足的问题,研究了使用基于注意力机制的关键词识别系统对其进行改进,提高了端到端关键词识别系统的性能。首先,使用了声学模块来替换声学编码器,其用一个双向长短时记忆网络实现。然后,为了得到关键词向量,去除了文本查询编码器中的卷积神经网络。最后,使用注意力机制来提取出输入语音信号中的关键词信息。实验证明,使用注意力机制的关键词识别模型在性能上有较大的提升,其准确率和ATWV相比于基线系统分别相对提升了21.6%和49.7%。3.在基于注意力机制的关键词识别模型的基础上,针对声学模块中双向长短时记忆网络特征提取能力不足且计算较慢的问题,使用了时间卷积神经网络和自注意力机制对其进行改进,提高了模型性能。本文将卷积神经网络和自注意力机制对双向长短时记忆网络进行了不同组合,从而得到不同的声学模块。实验结果表明,加入了时间卷积神经网络之后的模型取得了最好的识别效果,其准确率和ATWV相比于使用注意力机制的关键词识别模型分别相对提升了11.7%和67.1%。4.在基于注意力机制的关键词识别模型的基础上,针对标注信息利用率不高的问题,研究了使用连接时序分类准则构造辅助任务,对端到端关键词识别模型进行多任务训练,以提高声学编码器的语义信息提取能力,从而进一步提高模型性能。本文研究了两种使用连接时序分类准则构造辅助任务的方法:一种是基于声学模块输出构建带有时间位置信息的关键词识别辅助任务,然后使用连接时序分类准则进行多任务训练;另一种是基于声学模块输出构建连续语音识别辅助任务,然后使用连接时序分类准则进行多任务训练。实验结果表明,构建连续语音识别辅助任务的模型取得了最好的性能,其准确率和ATWV分别为98%和-6.4892。
其他文献
三阴性乳腺癌(TNBC)是一种缺乏雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体(HER-2)的乳腺癌,具有恶性程度高、易复发、易转移及预后差等特点,因此目前尚无针对TNBC的靶向治疗策略。研究表明,转移是造成三阴性乳腺癌患者死亡的主要因素,而转移作为一个复杂的病理过程,雌激素和血小板在此过程中起着重要的驱动作用。雌激素不仅能提高肿瘤细胞的增殖速率,还能增加肿瘤细胞基质金属蛋白酶2(M
背景与目的食管鳞状细胞癌(esophageal squamous cell carninoma,ESCC)是我国的高发肿瘤之一,目前患者的五年生存率仍低于20%。尽管在ESCC的诊疗方面已经取得了一定的进展,但是大家的关注点仍然主要放在负责编码蛋白质的一小部分DNA序列上,随着高通量测序技术的快速发展,大量长链非编码RNA(Long non-codingRNA,lncRNA)分子被鉴定,并发现其与
研究背景人工膝、髋关节置换术(Total joint arthroplasty,TJA)是骨关节科常用的一种缓解关节疼痛、改善下肢力线、重建关节功能和治疗终末期关节疾病的一种快速有效的方法,它能使关节严重疼痛和功能受限的患者恢复活动能力和提高生活质量。真菌性假体周围感染(Prosthetic joint infection,PJI)是TJA术后感染最严重、最难以处理的并发症之一,它的发生使得患者对
压电超声电机是一种新型的驱动器,具有结构灵活,形式多变,质量轻,断电自锁,控制精度高,响应速度快,抗电场和磁场等的干扰等特点,具有广阔的应用前景。在技术范畴内单个振动模式、简单谐振模式超声电机已趋于成熟,但多维度振动模式超声电机研究较少。本文针对多自由度超声电机,提出一种新结构形式的多自由度超声电机。并对其进行了理论分析和实验研究。主要研究内容如下:1.新型结构多自由度超声电机工作原理的振动模式分
混匀仪是医学和生物学实验室常用的混匀仪器,如酶反应、细胞分离及PCR反应体系等实验对于混匀仪的需求越来越高,稳定的混匀振幅、精确的混匀转速控制及温度控制是混匀仪的核心功能。本课题设计一种可以应用于医学和生物学实验室中的精密型恒温混匀仪,结合虚拟样机技术,从三维建模到静、动力学分析,最后到试验样机的搭建和性能测试,践行了一套完整的研发流程,具有较强的实际工程意义。主要完成以下工作内容:(1)根据本课
本文主要工作是使用有限元方法来研究两类非定常非线性偏微分方程的超逼近及整体超收敛性质.首先,基于双线性元和零阶Nédélec元所构成的单元对Q11/Q01×Q10,构造了非线性Sobolev方程的一个协调扩展混合元新模式.根据单元的高精度特性,并借助于插值和投影相结合方法,平均值技巧和插值后处理技术,导出了相关变量在半离散和全离散格式下的超逼近和超收敛结果.其次,我们利用双线性元研究了非线性波动方
内燃机作为许多机械设备的动力源,在机械领域应用甚广,缸套或无缸套缸体与活塞环的滑动摩擦副作为内燃机的主运动副,其摩擦造成的能量损耗约占内燃机总能量损耗的一半以上。为了改善缸套、无缸套缸体内表面的摩擦磨损状况,使用激光在其内表面加工出有一定规律的微观织构形貌的方法应运而生。大量理论研究和试验都证明:在缸套-活塞环摩擦副接触面上加工与润滑性能要求相匹配的微观织构形貌,可以大大改善其润滑性能,减少油耗,
工程实际中大部分零件都工作在非稳态工况下,针对非稳态点接触弹流润滑求解算法计算效率低、耗时冗长等问题,提出了非稳态点接触弹流高效直接算法。基于高效直接算法,通过对滚子端部进行修形,以改善接触副摩擦学性能,提高其使用寿命。采用等温点接触弹流直接算法,对四种凸型有限长滚子进行了分析,得出了有益的结论。主要完成的工作包括以下两部分:1.通过将求解点接触弹流润滑的“列向分块、逐列求解”思想推广到非稳态弹流
计算机断层成像(Computed Tomography,CT)技术能对物体内部结构信息实现非接触、快速且高效成像,已广泛应用于医学临床诊断中。CT成像技术给临床诊断带来便利的同时,其本征的辐射剂量问题则一直是公众关注的焦点;因此,低剂量CT(Low-Dose Computed Tomography,LDCT)已成为临床CT成像技术的发展趋势。然而,降低辐射剂量会使投影数据的统计噪声增大或采样数量降
电商平台中真实可信的用户评论可以帮助消费者做出正确的消费决策。然而,受不同动因驱使,电商平台中也充斥着大量虚假评论。虚假评论不仅会误导用户的消费决策,同时也会对商家及电商平台造成消极的影响。在此背景下,虚假评论的检测与治理对监督网站运营、净化网络环境具有重要的意义。本文基于深度学习技术对虚假评论检测方法展开研究。为实现对虚假评论的准确、高效检测,从评论间相似性与评论文本情感两种角度出发,提出两种虚