论文部分内容阅读
声纹识别是一种高质量的身份辨认技术,被广泛应用在众多行业中,为个人财产以及企业的安全带来极大的便利,也可以为国家安全,司法案件等带来了鲜明有力的证据。但是由于一些不确定性因素,如年龄、情绪、成长环境、噪音等的影响,声纹识别技术还有待于继续深入挖掘和研究,进一步提升其基础理论和应用价值方面的研究水平。声纹识别即说话人识别,本质上它是语音信号模式识别领域中的一类问题,主要包括声纹特征提取、语音特征训练和语音分类识别三个部分,其中声纹特征提取是整个声纹识别系统的核心和关键,它关系整个系统的性能。本文采用深度学习方法对声纹特征提取算法进行了优化和改进,提出了新算法模型。在声纹识别模型研究中,本文分别采用时序网络和卷积网络,这两类经典网络架构对特征提取建模,进行研究探索。本文采用双向长短记忆网络改进了GE2E(Generalized End-to-End)模型,提出了BiGE2E(BiLSTM with Generalized End-to-End)模型;另外,提出了一种嵌入注意力机制的3DCNN模型3DCNNAM(3D Convolutional Neural Networks with Attention Mechanism)。具体的说,构建时序网络模型时采用BiLSTM网络结合端到端损失函数的模型,更好的利用了输出层和输入层中每一节点相关的上下文特征信息,将训练后的特征建立相似度矩阵,比较不同说话人声纹特征嵌入向量与所有说话者的质心之间相似度,判别说话人身份。实验研究结果表明,在相同开源数据集TIMIT下,BiGE2E比GE2E模型效果更好。构建卷积网络建模时采用嵌入注意力机制的三维卷积网络,分别从空间和时间两个维度上强化目标区域有效特征表达,抑制无用特征的学习。在融合模型自适应特征学习时,设置相同数量的说话者语音输入网络,既能提取说话者相关的信息,又能应对语音内部特征变化,最后通过余弦距离相似度打分。实验研究结果表明,在相同开源数据集LibriSpeech下,3DCNNAM模型较3DCNN模型效果好,但并不是在卷积层之后嵌入越多越好,实验证明加入一次注意力模块(Convolutional Block Attention Mechanism,CBAM)比加入两次CBAM的性能好。综上,本文主要工作是采用时序网络模型和卷积网络模型对声纹识别进行了研究,提出了改进策略,优化了声纹识别模型,取得较好的实验效果。