论文部分内容阅读
随着说话人识别技术的发展,说话人识别系统的性能已经达到实用的水平,例如在2010年NIST的说话人识别评测中,核心测试的等错误率达到1%左右。然而在实用环境中,说话人识别系统将会面临各种复杂的鲁棒性问题,例如复杂的信道和环境噪声,说话人年龄、情绪等自身因素的变化,以及冒认者语音是合成语音的情况。本文主要针对说话人识别的噪声鲁棒性问题以及合成语音鲁棒性问题展开研究,具体内容如下:
关于噪声鲁棒性问题,本文首先对信号域、特征域和模型域的经典噪声鲁棒性方法进行调研。其中信号域采用基于MMSE_LSA的语音增强算法;特征域采用特征高斯化和相对频谱滤波;模型域则是采用多样训练。通过观察以上方法在多种噪声环境下的性能,本文较为全面地分析了不同噪声鲁棒性方法的特点,并验证了相应融合策略的有效性。在完成对不同域鲁棒性方法调研的基础上,本文将丢失特征理论引入说话人识别系统,并且提出相应的改进方法:第一,将丢失特征理论中的重建模型与说话人识别系统中的通用背景模型进行绑定,一定程度上使得重建特征与后端模型匹配;第二,利用线性谱域和对数mel滤波器输出域的互补性,对语音的丢失特征进行更加准确的二次重建;第三,采用不确定度解码方法,将重建特征的不确定度传播到得分域。实验表明,以上提出的改进方法对系统性能有一定的提升作用。
关于合成语音鲁棒性问题,本文的目标是构建自然语音与合成语音区分系统,从而保证说话人识别系统不会将合成语音冒认者错误接受为目标说话人。本文首先根据自然语音与合成语音在mel倒谱统计特性上的差别,提出从倒谱统计特性的角度来区分自然语音与合成语音。接下来,通过分析参数语音合成系统的特点,本文发现合成语音相对自然语音具有更小的发音差异性,进而提出基于音素发音差异性的自然语音与合成语音区分系统。实验表明,本文提出的方法能在一定条件下区分自然语音与合成语音,提高说话人识别的合成语音鲁棒性。