基于深度学习的声纹识别算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:sduheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别是一种高质量的身份辨认技术,被广泛应用在众多行业中,为个人财产以及企业的安全带来极大的便利,也可以为国家安全,司法案件等带来了鲜明有力的证据。但是由于一些不确定性因素,如年龄、情绪、成长环境、噪音等的影响,声纹识别技术还有待于继续深入挖掘和研究,进一步提升其基础理论和应用价值方面的研究水平。声纹识别即说话人识别,本质上它是语音信号模式识别领域中的一类问题,主要包括声纹特征提取、语音特征训练和语音分类识别三个部分,其中声纹特征提取是整个声纹识别系统的核心和关键,它关系整个系统的性能。本文采用深度学习方法对声纹特征提取算法进行了优化和改进,提出了新算法模型。在声纹识别模型研究中,本文分别采用时序网络和卷积网络,这两类经典网络架构对特征提取建模,进行研究探索。本文采用双向长短记忆网络改进了GE2E(Generalized End-to-End)模型,提出了BiGE2E(BiLSTM with Generalized End-to-End)模型;另外,提出了一种嵌入注意力机制的3DCNN模型3DCNNAM(3D Convolutional Neural Networks with Attention Mechanism)。具体的说,构建时序网络模型时采用BiLSTM网络结合端到端损失函数的模型,更好的利用了输出层和输入层中每一节点相关的上下文特征信息,将训练后的特征建立相似度矩阵,比较不同说话人声纹特征嵌入向量与所有说话者的质心之间相似度,判别说话人身份。实验研究结果表明,在相同开源数据集TIMIT下,BiGE2E比GE2E模型效果更好。构建卷积网络建模时采用嵌入注意力机制的三维卷积网络,分别从空间和时间两个维度上强化目标区域有效特征表达,抑制无用特征的学习。在融合模型自适应特征学习时,设置相同数量的说话者语音输入网络,既能提取说话者相关的信息,又能应对语音内部特征变化,最后通过余弦距离相似度打分。实验研究结果表明,在相同开源数据集LibriSpeech下,3DCNNAM模型较3DCNN模型效果好,但并不是在卷积层之后嵌入越多越好,实验证明加入一次注意力模块(Convolutional Block Attention Mechanism,CBAM)比加入两次CBAM的性能好。综上,本文主要工作是采用时序网络模型和卷积网络模型对声纹识别进行了研究,提出了改进策略,优化了声纹识别模型,取得较好的实验效果。
其他文献
根据工程实践,从饰面砖的选材、吸水率,砂浆的粘结质量,防止盐析结晶作用,合理搭接以及正确设置伸缩缝,成品保护等6个方面,论述了提高饰面砖施工质量的措施.
主要介绍了利用PowerBuilder开发的软件"系级教学管理系统",详细说明了该系统的主要功能及设计思路,并通过实例对系统的应用进行了说明.
近些年我国经济发展速度不断加快,科学技术水平也得到了一定的发展,这使我国公共卫生发展得到了较为迅速的提升,特别是基层畜牧兽医动物的防疫工作,虽然还存在一定的问题,但
我国的债券市场自上世纪八十年代以来,在经过一段时间的飞速发展之后,债券的发行数量和规模都有着质的飞跃,一方面增强了我国企业的融资能力,另一方面也增加了在市场中活跃的投资者。但随着2014年“11超债券”发生实质性违约,公司债券发生违约的事件越来越多,我国债券市场上的信用风险不断加剧。2019年1月15日,康得新公司发布关于超短期融资债券“18康得新SCP001”和“18康得新SCP002”两只即将
一、农机新技术在推广过程中存在的问题1、农机新技术及其推广理念相对滞后.现阶段,农机新技术在推广过程中依旧存在着很多缺陷,其中最为明显和突出的就是农机新技术及其推广
论述了聚丙烯纤维防水砂浆的防水机理,并叙述了纤维防水砂浆的组成材料、配比、主要性能和工程应用情况.
从供暖、空调和供热水三个方面简要论述了太阳能在建筑中的应用.