论文部分内容阅读
随着通信与计算机技术的发展,使用电话、手机等工具进行交流的用户不断增多,电话语音也在人们的生活中占有越来越重要的地位。使用电话语音来进行说话人身份鉴别具有方便快捷等诸多优点,其技术在金融、商贸、公安、军事等领域具有广阔的应用前景。其中,文本无关的说话人确认不需要说话人的语义配合,其应用范围更加广阔,实用性更强。近年来,支持向量机(SVM)由于其具有强区分能力,尤其适合解决类似于说话人确认这样的二元分类问题,因而成为模式识别领域的一个研究热点。然而,将目前常用的短时倒谱参数MFCC用于文本无关的说话人确认需要较多的语音数据,将SVM作为说话人模型时将会遇到大训练样本、两类数据混叠严重等问题,使SVM的建模面临着训练效率低下。本文主要针对SVM用于文本无关说话人确认中存在的问题,对使用特征空间分类和GMM进行说话人特征映射的方法进行了研究,并且对SVM的建模方法进行了探讨。主要研究内容如下:1)针对采用SVM建立说话人模型面临着大数据量样本的问题,研究了基于GMM-UBM特征映射的SVM说话人确认方法。采用GMM-UBM结构进行特征映射能够实现数据压缩,并提取代表说话人个性信息的特征矢量。本文对UBM混合度对系统性能影响,以及在NIST长语音任务中SVM建模策略问题进行了分析。2)提出了一种基于分类GMM-UBM特征映射和SVM的说话人确认方法。CGMM-UBM特征映射,使得原本混叠较为严重的数据变得更容易区分,提升了SVM分类界面的区分性能。同时,分类子空间中的GMM能够更加精细地描述说话人参数统计特性。本文针对基于VQ的特征空间划分方法和基于基因周期的特征空间划分方法,在不同子空间个数、不同GMM混合度的情况下进行了分析。实验表明:通过分类特征映射和子系统评分融合,CGMM-UBM-SVM系统相对于GMM-UBM系统,EER降低了17.2%;CGMM-UBM-SVM系统相对于GMM-UBM-SVM系统,EER降低了7.6%,系统性能有了进一步提升。