论文部分内容阅读
说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,得到人们越来越多的研究。 支持向量机是在统计学习理论上发展出来的一种模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势,同其他模式识别方法相比主要有两个不同点:一是它采用一个非线性核函数来表示特征空间的内积,另外它采用分类间隔最大的最优分类超平面实现结构风险最小化原则。由于支持向量机具有坚实的理论基础,得到越来越多的人们研究,并在各个领域中得到广泛应用。 本文采用支持向量机对说话人进行建模,以文本无关说话人识别为主要研究内容,分别从基于帧向量的说话人支持向量机模型、支持向量机混合模型、基于语句的说话人支持向量机模型和基于通用背景模型的说话人支持向量机模型进行深入的研究。 论文深入分析了基于帧的说话人支持向量机模型中各个方面对识别性能的影响。说话人识别中普遍流行的方法都是使用基于帧的方法,其建模过程一般是使用模型来描述个人语音帧数据的空间分布状况,比如矢量量化模型(VQ)、高斯混合模型(GMM)等等。采用支持向量机来描述个人语音特征的分布时,其输入是说话人的语音帧向量。由于训练支持向量机需要解决一个二次规划问题,一般采用聚类的方法来选择出一些代表性的样本作为支持向量机的输入进行训练。论文分别从选择样本方法、样本集大小、样本集权重、样本得分方式、支持向量机核函数、支持向量机多类分类,支持向量机概率输出等方面进行深入研究。 论文针对说话人语音数据的大规模性和支持向量机解决二次规划问题之间的矛盾,提出基于专家混合和基于迭代训练的支持向量机混合模型用于说话人识别。集成学习是机器学习领域的一个热门方向,Boosting集成学习算法和专家混合算法是人们常用的两种算法,借鉴这两种算法思想并具体结合说话人识别的特殊性,分别提出基于迭代训练的支持向量机混合模型和基于专家混合的支持向量机模型。同时,对于混合得分组合方式,借鉴VQ模型和GMM模型的得分计算思想,分别提出基于距离的计算方式和基于概率的计算方式。 论文根据传统的矢量量化模型和高斯混合模型,提出一类采用偏差信息构造的核函数用于说话人识别。根据矢量量化模型中计算得分的方式,利用最小距离