论文部分内容阅读
现代语音识别系统在安静环境下可以达到良好的性能,但是,当语音输入受噪声破坏时,系统性能急剧下降.噪声鲁棒性问题成为语音识别技术目前面临的主要挑战之一.在复杂任务条件(高困惑度非特定人汉语连续语音识别)下,该论文研究了数据重建方法对于提高语音识别系统噪声鲁棒性的作用.数据重建方法认为噪声和语音在时间-频率域上不同区域具有不同局部信噪比,并进行缺失分量估计,即把局部信息比较低的区域标记为"缺失",而局部信噪比较高的区域标记为"可靠",然后重建"缺失矢量",得到完整矢量后进行语音识别.数据重建方法没有对噪声特性进行假设和限制,因此,当噪声为不稳定信号时,该方法具有潜在的优越性.先前的数据重建方法研究主要集中在连接数字串识别这样相对简单的任务.实验研究发现,复杂任务的语音识别系统对噪声敏感性更大,即使在信噪比较高的情况下,语音识别系统的识别性能也有明显的下降.为此,该论文研究的问题主要定位在复杂任务条件下,研究数据重建方法对于提高语音识别系统噪声鲁棒性的作用.该文提出了非线性谱减缺失分量估计算法.该算法根据信号的信噪比估计动态调整噪声更新系数α,从而达到如下目的:在信噪比较高时,噪声估计更新缓慢;在信噪比较低时,噪声估计更新较快.实验结果表明,无论噪声是平稳高斯白噪声还是非平稳babble噪声,在信噪比较高情况下,非线性谱减缺失分量估计都能取得较好的效果,语音识别系统噪声鲁棒性得到明显提高.经过基于非线性谱减缺失分量估计和PWADI数据重建后,对受Babble噪声破坏的语音,在SNR=20dB时,音节准确率从45.97﹪提高到51.43﹪;在SNR=5dB时,音节准确率从-5.81﹪提高到-5.41﹪.对受高斯白噪声破坏的语音,在SNR=20dB时,音节准确率从28.00﹪提高到47.57﹪;在SNR=5dB时,音节准确率从2.34﹪提高到2.52﹪.