论文部分内容阅读
语音声纹密码是采用语音段中的文本信息和说话人信息对用户信息进行双重加密的技术。因此具有较好的安全性和便捷性,在银行、公安、智能家居等领域都有广泛的应用。但是在实际应用中,传统的语音声纹密码识别仍然面临着密码泄露、特征冗余、抗干扰性差等方面所带来的挑战。传统的语音声纹密码识别属于文本相关的声纹识别任务。由于密码文本是固定的,容易遗忘和泄露,因此安全性不高。针对这个问题,本文采用文本提示型的语音声纹密码识别方案。用户每次登陆系统时系统会提示输入的动态密码,用户根据提示文本说出密码语音。这种方法安全性虽然高但动态声纹密码识别属于文本无关的声纹识别任务其声纹识别性能相对较低。针对以上各个问题,本文主要从以下几个方面来提升文本提示型语音声纹密码的识别率。首先,语音声纹密码识别系统包含语音密码识别和声纹密码识别两个部分。因此系统前端需要一个识别率相对较高的语音识别系统来验证用户所说密码是否正确。传统基于GMM-HMM的语音密码识别系统识别率相对较低难以满足安全性要求,因此本文采用识别性能更好的DNN-HMM语音密码识别系统。第二、传统声纹识别中采用的声学特征(如MFCC,PLP等特征)包含的主要是文本信息和信道信息,说话人信息属于其中的弱信息。声纹密码识别性能极易受到语音信号中的文本、信道以及噪声等干扰信息的影响。针对这个问题,本文利用深度神经网络的特征提取能力提出一种基于深度神经网络的说话人信息提取方法。采用该方法提取出的说话人信息相对传统声学特征具有更好的说话人区分能力。第三、同样针对传统声学特征中包含的冗余信息,本文进一步采用特征端因子分析的方法来去除声学特征中的冗余干扰信息。传统的特征端因子分析方法是在高斯混合模型的每个高斯上借用因子分析思想来对特征降维。但GMM模型属于无监督的聚类算法,其每个高斯成分物理意义不够明确无法与具体的发音文本信息相对应。为解决这一问题,本文在特征端因子分析中利用语音识别中的声学模型深度神经网络取代高斯混合模型,分别对不同音素上的语音特征进行分类然后在每个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNNi-vector。接着在基于DNN的说话人信息提取中,本文采用基于DNN的特征端因子分析取代LDA对每帧语音的隐层输出超矢量进行降维。最后根据文本提示型的声纹密码识别的特点,本文提出分数字建模声纹密码识别方案。针对数字声纹密码中的每个数字分别训练一个声纹识别模型。注册和测试时匹配同时出现的数字进行测试,将文本无关声纹密码识别任务转化为文本相关声纹密码识别任务。本文实验采用的数据库为RSR2015数据,通过在该数据库上的实验验证以上所述算法的有效性。