论文部分内容阅读
随着科学技术的不断进步,电话已经成为人们日常生活中不可或缺的一部分。在身份认证技术研究领域,越来越多的研究人员开始关注如何使用电话语音进行身份认证,因为相对于其它身份认证技术来说,使用电话语音进行身份认证所需的设备简单、成本低、易获取,更重要的是在使用电话语音进行身份认证的过程中,用户不需要接触设备,只需要简单的说一句话,便可完成认证,大大提高了用户的接受率。另外,说话人确认技术还是语音识别技术研究领域的一个重要研究方向,所以说话人确认技术的研究不仅具有重要的理论研究意义而且还具有广泛的应用前景。目前在说话人确认研究领域中,主流的说话人建模方法都是基于概率统计模型的,其中最具代表性的概率统计说话人模型当属高斯混合模型(Gaussian Mixture Model, GMM)。高斯混合模型采用非常多的高斯概率密度函数分量,对说话人的语音特征分布进行了较好的描述,从而取得了不错的效果:但说话人确认是一个二元分类问题,而高斯混合模型只是一种概率生成性模型,其区分能力非常有限,所以需要寻找同时具有强大表征能力和很强区分能力的模型进行说话人建模。近年来,深度学习(Deep Learning,DL)理论在模式识别领域掀起了一股非常大的研究热潮,其出发点是想构建一个复杂的神经网络模型来模拟人脑的思维方式,然后对数据进行分析和处理。目前深度学习理论所依托的实现载体是深度神经网络(Deep Neural Network, DNN)。深度神经网络凭借多隐层的结构特点,使得其具有很好的表征能力和区分能力,目前在模式识别的诸多研究方向都取得了成功应用。本文主要研究内容就是将具有强大表征能力及区分能力的深度神经网络应用于说话人确认系统中进行说话人建模,构建基于深度神经网络的话者确认系统,针对建模过程中深度神经网络输入特征的选择、网络结构以及网络训练方法等关键问题进行了深入的研究,并对多种基于深度神经网络的说话人确认系统的结构及性能进行对比。首先,介绍了目前说话人确认技术研究领域最为经典的概率统计模型——高斯混合模型,并对其原理进行了详细阐述。针对其应用于说话人确认系统中使用的GMM-UBM结构进行了深入的讨论,并对GMM-UBM说话人模型训练过程中使用的MAP算法进行介绍,然后通过实验分析了混合度的选取对GMM-UBM说话人确认系统整体性能的影响,同时构建了本文研究所需的基线系统。接着,对深度神经网络相关内容展开了讨论,介绍了深度神经网络的发展历程,详细阐述了深度神经网络的原理及其训练算法,并对深度神经网络在训练过程中常出现的问题进行了重点讨论。本文针对基于GMM-UBM的说话人模型区分能力差,表征能力不足等问题,引入了深度神经网络进行说话人建模,构建了基于DNN-SPK说话人确认系统。为了进一步的减弱语音倒谱中语义信息的干扰,采用GMM对语音的原始倒谱特征进行聚类变换,抽取原始倒谱特征的统计特征参数,从而进一步突显说话人的个性信息,然后将其与深度神经网络相结合,构建基于GMM-DNN说话人确认系统,大大提高了确认的效果。最后,语音作为一种时序信号,当前时刻的信息在一定程度上是受其历史信息影响的。采用DNN进行说话人建模时,DNN对语音历史信息的记忆是非常有限的,所以引入了能够记住长历史信息的长短时记忆(Long Short Term Memory,LSTM)模型,构建了基于LSTM-SPK说话人确认系统,针对采用LSTM进行说话人建模过程中,模型结构的选择以及如何选取输入特征参数和输出说话人标签等关键问题进行详细讨论。另外,针对LSTM计算复杂度比较高的问题,探讨了采用LSTMP模型替换LSTM模型进行说话人建模的策略,最终使得话者确认系统的性能获得了明显的提升。