基于数据重建的语音识别鲁棒性技术研究

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:yy1986527123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代语音识别系统在安静环境下可以达到良好的性能,但是,当语音输入受噪声破坏时,系统性能急剧下降.噪声鲁棒性问题成为语音识别技术目前面临的主要挑战之一.在复杂任务条件(高困惑度非特定人汉语连续语音识别)下,该论文研究了数据重建方法对于提高语音识别系统噪声鲁棒性的作用.数据重建方法认为噪声和语音在时间-频率域上不同区域具有不同局部信噪比,并进行缺失分量估计,即把局部信息比较低的区域标记为"缺失",而局部信噪比较高的区域标记为"可靠",然后重建"缺失矢量",得到完整矢量后进行语音识别.数据重建方法没有对噪声特性进行假设和限制,因此,当噪声为不稳定信号时,该方法具有潜在的优越性.先前的数据重建方法研究主要集中在连接数字串识别这样相对简单的任务.实验研究发现,复杂任务的语音识别系统对噪声敏感性更大,即使在信噪比较高的情况下,语音识别系统的识别性能也有明显的下降.为此,该论文研究的问题主要定位在复杂任务条件下,研究数据重建方法对于提高语音识别系统噪声鲁棒性的作用.该文提出了非线性谱减缺失分量估计算法.该算法根据信号的信噪比估计动态调整噪声更新系数α,从而达到如下目的:在信噪比较高时,噪声估计更新缓慢;在信噪比较低时,噪声估计更新较快.实验结果表明,无论噪声是平稳高斯白噪声还是非平稳babble噪声,在信噪比较高情况下,非线性谱减缺失分量估计都能取得较好的效果,语音识别系统噪声鲁棒性得到明显提高.经过基于非线性谱减缺失分量估计和PWADI数据重建后,对受Babble噪声破坏的语音,在SNR=20dB时,音节准确率从45.97﹪提高到51.43﹪;在SNR=5dB时,音节准确率从-5.81﹪提高到-5.41﹪.对受高斯白噪声破坏的语音,在SNR=20dB时,音节准确率从28.00﹪提高到47.57﹪;在SNR=5dB时,音节准确率从2.34﹪提高到2.52﹪.
其他文献
论文的主要内容如下:1.通过深入研究合成孔径雷达图像数据的基本理论和统计特性,利用SAR图像的数据模型,研究了国外多种统计滤波降斑算法,提出模拟退火降斑算法与自适应滤波
波达方向(Direction of Arrival,DOA)估计是阵列信号处理的一个重要研究领域,在通信、雷达、声纳、地震勘测等领域有着广泛的应用前景,基于阵列信号处理的DOA估计可以同时对
互联网为了实现协议简化且便于异构平台间数据交换,大部分都采用了基于文本的通讯协议,例如HTTP(超文本传输协议)、SMTP(简单邮件传输协议)等。IETF(因特网工程任务组)在这样
本文研究了啤酒厂发酵车间废水中微生物菌群的特性,分离出其中的主要优势菌群,包括三株细菌和三株酵母菌,通过鉴定分别属于芽孢杆菌属、短杆菌属、动胶菌属、酵母属、假丝酵
该文设计的KJJ23隔爆兼本安型网络交换机成功的将目前世界上流行的嵌入式系统设计技术应用到了煤矿设备中.在嵌入式系统开发中,核心是嵌入式微处理器.根据项目的具体情况,采
  本文研究了超声波对钝顶螺旋藻A9藻株的作用规律,确定了超声波的最佳处理时间;探索了螺旋藻对氨基酸类似物ρ-氟苯丙氨酸(FPA)和刀豆氨酸(CS)的敏感性;分别采用紫外线、60Co
各种因素诱导神经元的凋亡有多方面机制,包括兴奋毒性学说、离子紊乱学说、氧化应激学说和基因调节学说等。在凋亡产生机制的离子因素以往研究中,主要是对Ca2+、K+和Na+离子活
随着国家防汛指挥系统工程启动和水文信息通信方式逐渐多样化,水文测报信息网络对通信控制机的性能提出更高要求:更多的通信协议、更快速的通信端口、更大的存储容量、更高的
该文从信号传输的角度对混合光纤放大器进行了一些研究.主要的工作包括以下几个方面:1.信号在拉曼放大器中的传输研究.从非线性效应和信号相位两个方面说明了分布式拉曼放大
该文首先介绍了课题的来源和背景.针对中间件技术和IPPBX技术在国内外的研究现状和水平,提出了利用中间件技术在局域网平台上进行集群共网交换控制中心的设计.该文着重介绍了