论文部分内容阅读
随着计算机技术及人工智能等技术的发展,说话人识别在近几年也有了长足的进展。自从Reynolds提出将GMM(Gaussian Mixture Model,高斯混合模型)用于说话人识别之后,GMM便一直是说话人识别领域的研究热点。尽管之后研究人员又提出了许多新的效果更好的说话人识别方法,如GMM-SVM,JFA,i-vector等,但这些方法均基于GMM模型,系统中GMM模型性能的好坏直接关系着系统的识别性能,因此对GMM模型本身的研究十分必要。 本文的主要研究内容如下: 第一,UBM背景模型数据选择。UBM是说话人识别系统的核心,在选择背景说话人数据时,通常的做法都是使数据覆盖尽量多的说话人、通道以及麦克风类型,然而过多的数据中必然存在冗余,会增加UBM模型训练的复杂度。为了剔除冗余数据,Hansen提出在原始背景说话人数据中选择部分用于训练UBM的方法。本文在第三章首先验证了Hansen所提出的数据选择方法的有效性,并且在其基础上对其中的智能特征选择方法IFS采用跳帧方式改进。NIST数据库上的实验证明,利用改进的方法使得UBM训练时间由原来的3小时46分钟缩短为9分钟,在大大降低模型训练时间的同时,系统等错误率EER有了0.47%的提升。 第二,基于GMM token配比相似度校正得分的说话人识别方法。在实验中我们观察到,不同说话人的GMM token分布模式是不同的,而同一个说话人相同内容的语句的GMM token分布模式趋于一致,根据这一点我们提出了一种基于GMM token配比相似度校正得分的说话人识别方法。该方法根据测试语句GMM token配比和模型训练语句的GMM token配比相似度对测试得分进行校正,有效降低测试语句中部分impostor测试语句的测试得分,从而有效提升系统EER性能。MASC@CCNT上实验表明,系统等错误率EER相对基准有0.87个百分点的提升。 第三,基于GMM token的短语识别。由于语音的GMM token序列刻划了语音中音素内容的变化过程,所以被广泛的应用于语种识别和方言识别。而语音的GMM token配比向量则刻划了语音中音素内容的组成信息,根据这一点我们提出一种基于GMM token配比相似度的短语识别方法,在7个人(5名男性,2名女性)的“前左右”指令集上准确率为100%,而MASC@CCNT库上准确率为88.8%。另外,通过观察不同短语的语图进一步发现,不同短语发音的起始部分的各个频带的能量分布差别很大,因此我们进一步提出基于起始语音片段的短语识别方法,该方法只需要短语的起始部分的语音而不需要完整的语音内容。当只取“前左右”指令前100毫秒时,平均指令识别时间由原来的235.6毫秒缩短为112.8毫秒,而准确率为94.8%,只下降了5.2%。所以基于GMMtoken的短语识别可适用于实时性要求较高的场合。