基于相位和混响信息的多任务学习的远场语音识别

来源 :天津大学 | 被引量 : 0次 | 上传用户:haoxiang123123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的发展,目前为止自动语音识别任务在已经得到了明显的提升,比较安静的环境下已经能达到一个比较好的性能,但是现有的语音识别系统对外部环境的要求较高,在实际环境的应用中仍然存在着各种各样的问题。因此需要搭建远场语音识别系统进行代替现有的语音识别技术。但是远场语音识别结果在实际环境下仍然不理想,主要原因是在远场语音识别中环境因素的影响。在一个密闭的环境中,混响噪声是造成语音识别结果不理想的主要因素。因此去除混响噪声能够大幅度提升语音识别性能。随着深度学习的广泛应用,深度神经网络在语音增强中的应用越来越起到关键的作用。在本论文中,我们提出一种使用多目标神经网路框架的方法来从相位信息以及振幅信息中学习出干净的语音声学特征进行远场语音识别。在先前的研究中,研究者发现语音增强任务和特征增强任务结果是独立的,振幅信息在语音识别中显示出了很好的性能,但是语音中的相位信息往往会被忽略。为了解决这个问题,本论文中提出一种基于多目标神经网络的方法将语音增强和特征增强两种不同的任务结合起来进行性能优化。在本论文所进行的实验中,以MFCC特征和语谱图特征作为两种任务的基础特征,使用相位信息作为重要的辅助特征。在本文中所使用的相位信息包括传统的群延迟系统(MGDCC)以及基于相位域的源分离方法的声道信息(PBSFVT)。在本实验中,我们使用的是REVERB 2014挑战赛所提供的数据集来进行评估所提出来的方法。在本论文所提出的方法中,语音识别任务结果从使用传统单任务神经网络的26.57%单词错误率(WER)降低到了23.68%。在本论文所提出的方法中,相位信息作为多目标学习框架中一种重要的辅助特征能够提升识别结果。
其他文献
企业决策是企业管理的核心,而制约决策理性提升的关键因素是参与决策过程的信息及其质量。企业档案作为企业重要的信息元资源,与其他信息相比,具有原生性、确定性和真实性等不可比拟的品质优势。因此,企业管理高层要重视档案在决策过程中的作用发挥,以有效提升决策的理性程度。企业档案部门要增强决策服务意识,及时、有效地响应企业决策的信息需求,挖掘企业档案的潜在价值,并通过在参与过程中得到的反馈及时调整档案管理方面
随着移动互联网的高速发展,移动智能终端,如平板电脑、车载导航、智能手机的广泛使用。使得与位置紧密相连的移动互联网应用也得到了了快速发展。人们的出行越来越依赖导航定
目的研究女性年龄因素对盐敏感性的影响,了解女性月经周期与盐敏感性的关系,了解更年期女性高血压患者的盐敏感性。为女性高血压的防治提供理论依据,指导其尽早改善饮食结构,
厌氧氨氧化脱氮工艺是近年来新开发工艺,具有无需曝气量,无需外加有机碳源,降低污泥产率,无二次污染,脱氮效率高等优点,具有良好的应用前景。然而,对于污水的脱氮工艺主要关注在高氨氮(>500 mg N/L)工业水处理方面,对于低氨氮(<100 mg N/L)生活污水方面研究较少,因此,本试验主要研究了在低温条件下,用厌氧氨氧化工艺处理生活污水。本试验首先通过UASB反应器快速启动厌氧氨氧化
目的:心源性呼吸困难(cardiogenic dyspnea)和肺源性呼吸困难(pulmonary dyspnea)常常在临床急诊急救过程中存在鉴别困难,而对其不恰当的救治会影响患者预后。无创心排量监测仪(Non-invasive Cardiac Output Monitor,NICOM)通过其检测血流动力学参数的变化,可以判断患者是否出现心力衰竭。本研究拟通过前瞻性观察分析由无创心排量监测仪测定
目的 观察青光安4种有效组份对抗兔青光眼术后滤过道瘢痕形成中胶原纤维、α-SMA及FN的影响,探讨青光安有效组份在抗兔青光眼术后滤过道瘢痕形成过程中的作用机制。方法 将48
语音识别是当前深度神经网络的重要应用场景之一,语音唤醒技术,是一种识别少量词汇的关键词识别技术,是语音识别技术的一个重要分支。它具有的常开(always-on)特性决定了其对
在科学技术日益进步的今天,通信技术的实现场景已由最初的语音电话演化到后来的数字通信,再到多媒体通信,应用场景也从对通信要求单一的语音通信发展到了包含视频会议、物联
当今世界,以科技创新为基础的新兴产业逐渐成为引领世界经济复苏和持续增长的强大动力,世界各国对此给予高度重视。2009年我国首次提出构建战略性新兴产业的规划,江苏省作为
流域是地表水的集水区域,是一个综合性的生态系统。流域包括流域内水文网络、水流、土地、动植物资源、矿产资源等基本自然要素,同时还包括生活在流域范围内的人口、文化、经