论文部分内容阅读
说话人识别属于语音信号处理中的一种,它主要是通过挖掘语音信号中反映说话人生理和行为等个性特征的语音参数来识别说话人的身份。说话人识别中的关键技术问题就是特征参数的提取和模型的建立。本文主要从以上两个方面来进行与文本无关的说话人识别研究。随着多媒体数据的爆炸式增长,使得对音乐数据库中的数据进行有效的管理显得越来越重要。近年来利用语音信号处理技术并结合音乐数据本身的特点来分析和处理音乐数据的研究已成为一个非常有价值的热门课题。本文将说话人识别中的相关技术应用到音乐信号处理中。通过广泛地研究近年来说话人识别中常用的特征参数和建模方法,本文在处理语音数据时,主要提取基于Mel频率的倒谱系数(MFCC)作为语音的特征参数,高斯混合模型(GMM)作为语音描述的模型。并在MFCC特征参数的基础上提出能提高系统性能的CMFCC特征参数:将MFCC参数进行去均值处理后得到的特征参数。在研究说话人识别的基础上,提出能有效分离音乐数据中歌唱部分声音(pvoc)和伴奏部分声音(svoc)的线性组合模型(LGMM):首先对手工标注的pvoc和svoc数据建立一个GMM模型,然后用纯歌唱部分数据和纯伴奏部分数据分别建立相应的另一个GMM模型,最后将各类数据的GMM模型进行线性组合得最终的概率模型。本文主要工作如下:1、在无噪声环境下,分别用MFCC、CMFCC特征参数、GMM模型以及广义高斯混合模型(UBM-GMM)建立与文本无关的说话人识别系统。2、将MFCC特征参数和GMM模型应用到音乐中歌唱部分数据(pvoc)和伴奏部分数据(svoc)的分离中,给出LGMM模型建立的具体方法和过程,并将其应用到音乐中pvoc和svoc数据分离的实验中。3、根据LGMM方法,首先分离出音乐中的歌唱部分数据(pvoc)和伴奏部分数据(svoc),利用pvoc数据和svoc数据建立基于MFCC特征参数和GMM模型的歌唱家识别系统。4、通过实验分析训练数据长度、GMM模型中高斯分量个数对系统性能的影响,并比较了MFCC和CMFCC参数以及GMM,UBM-GMM,LGMM模型建立的系统性能。实验结果证实了CMFCC特征参数和UBM-GMM,LGMM模型能有效提高系统识别率。本文通过大量的实验表明,MFCC参数和GMM模型能有效地用于说话人识别,音乐信号处理中,实验结果还证实了本文提出的CMFCC特征参数和LGMM模型能有效地提高系统性能。