噪声环境下说话人识别算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:firexuan1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别系统在噪声环境下的鲁棒性是关系到说话人识别能否走向完全实用化的关键,也是当前说话人识别技术研究的热点和难点。噪声鲁棒性问题的根源为说话人识别训练和测试环境之间的不匹配,而抗噪声说话人识别的目的就是减小不匹配对识别系统造成的负面影响,在噪声环境下达到很好的识别性能。现有的抗噪声说话人识别技术可以简单的归为基于信号空间的语音增强、基于特征空间的鲁棒性特征参数提取及基于模型空间的模型补偿三类。本文主要针对加性噪声的影响,在信号空间和特征空间对问题进行了深入的研究和探讨,提出了几种新的抗噪声说话人识别技术。   首先,研究了基于信号空间的抗噪声说话人识别技术——语音增强。语音增强技术一般都作为预处理模块存在于说话人识别系统中,尽可能的将纯净语音送入识别系统输入端,因此,无需改变现有的识别系统就能增强其鲁棒性。现有的基于离散余弦变换的语音增强算法无法解决语音信息丢失与消除信号中的噪声二者之间的矛盾,而本文提出的模拟人耳听觉选择性的基于离散余弦变换的动态阈值语音增强算法很好的解决了这一问题,实现了低信噪比下语音增强的目的,并且增强后的语音在时域和频域上失真度小,非常适用于抗噪声说话人识别系统的前端处理器。   其次,研究了基于特征空间的抗噪声说话人识别技术——具有鲁棒性的特征参数提取。在实际应用中,这是说话人识别中最至关重要的一种技术,其目的是从带噪语音信号中抽取简洁、有突出代表性的相关特征参数用于判别分析。本文以MFCC为基础,提出了两种改进策略:1、根据语音信号的特性,应用DCT提取刻画说话人声源特性的谱特征参数SSC、SBE等,与MFCC组成混合特征参数;2、根据不同的信噪比及噪声背景下,噪声对语音信号的干扰各不相同,从而应用Fisher准则对声道特征参数MFCC进行降维。   最后,研究了支持向量机中核函数对分类性能的影响。核函数是支持向量机模型的核心机制,函数类型的选择和参数的确定对于分类的准确度至关重要。论文阐述了核函数的基本理论,对目前常用的多项式核函数和径向基核函数进行了仿真和分析,测试了它们在噪声环境下的系统识别率和稳健度,可作为一般应用SVM进行说话人识别问题选择核函数及核函数参数范围的依据。
其他文献
WiMAX是基于IEEE802.16系列标准的宽带无线接入城域网技术,其初衷是提供在城域网多厂商环境下,点对多点的宽带无线接入。它具有标准化、技术成熟、传输速度快、覆盖范围广、
无线通信系统的持续发展遇到频谱资源匮乏、网络能量受限、传统点到点通信接近香农极限等前所未有的巨大挑战。认知无线电的横空出世极大限度地提高了现有频谱资源的利用率,
深空通信面临着链路衰耗严重、误码率高、传输时延巨大、链路易中断等卫星和地面无线通信所不具备的特殊问题。信道编码作为保证通信系统可靠性的关键技术,对于解决上述问题
在互联网和多媒体如此繁盛的今天,图像俨然已成为我们日常生活中相当重要的信息载体。然而随着各种图像编辑处理软件的出现和广泛应用,图像能够轻而易举的被篡改,使得图像的
随着移动互联网的兴起,位置服务已经成为人们必不可少的生活服务,特别是在GPS覆盖不到的室内复杂环境中。WiFi是应用最为广泛的室内定位技术之一。然而由于多径效应和室内环
隐蔽通信作为信息隐藏技术的一个重要分支,由隐写和隐写分析构成。与传统的密码技术不同,隐写(Steganography)通过将秘密消息嵌入宿主信号,并尽量不引起视觉感知和统计特性的
正交频分复用(OFDM)技术已经在无线通信领域有了广泛应用,以其有效对抗多径衰落的特性以及较高的频谱资源利用率而受到广泛关注。本文主要分析了无线环境下的多载波系统的抗干