论文部分内容阅读
随着互联网技术和信息技术的飞速发展,以语音为载体的说话人识别技术应运而生。由于它的无侵害性和对用户最自然直观的方式,使得说话人识别技术成为最容易被接受的生物认证方式之一,并在社会各个领域得到广泛应用,如司法侦查、电子商务、金融等。虽然说话人识别技术在理论上已取得了不错的成果,但在实际应用中还存在一些问题,需要进一步的研究。本文从说话人识别的整体框架入手,在总结分析现有说话人识别技术的基础上,对语音信号的前端处理、特征提取、模型匹配等问题进行研究,具体的工作内容和创新如下:(1)由于端点检测的准确性影响到整个系统的识别率,本文针对短时TEO能量算法抗噪性差的缺点,提出一种强噪声下的端点检测新算法。该算法在短时TEO能量端点检测的基础上,增加Mel倒谱距离判断环节,采用先粗判后精判的互补性两级判决机制,然后与传统双门限法和谱熵法在不同背景噪声不同信噪比下进行对比实验。实验表明,在信噪比相对较低的环境下,该改进算法在没有增加运算复杂度的同时提高了系统检测的准确度。(2)特征参数的选取影响系统识别的好坏,为了最大可能地提取出能反映说话人个性特征的参数,本文提出将表征说话人语音特性的Mel倒谱系数和体现语音信号时域特征的短时TEO能量的混合特征参数应用于说话人识别中。目的是通过增加表征说话人语音特征参数的维数来改善系统性能;并采用相关距离Fisher比选取贡献值大的向量,重新组合得到更能完整描述说话人语音特征的混合参数。(3)分析基于GMM-UBM说话人识别系统的主要技术,建立基于GMM-UBM的说话人识别系统模型。通过训练全部说话人的语音信号得到UBM,再利用MAP得到待识别的语音的GMM模型。计算出每个说话人的对数概率得分,通过分析比较区分不同说话人,确定其身份。通过实验对比MFCC、MFCC+?MFCC、TEO-MFCC三组特征参数各自的识别效果,证明本文提出的混合特征参数在不增加复杂度的同时能够得到更高的识别率,鲁棒性更好。另外,本文还分析了相关距离Fisher比加权降维算法和高斯混合模型阶数以及测试时长对识别结果的影响,最后将端点检测和特征提取两种改进算法组合起来,系统地进行说话人识别实验。