【摘 要】
:
生物特征识别技术在各种智能终端的身份验证场景中起到越来越重要的作用。在生物特征识别技术中,声纹识别是最热门的技术之一。声纹识别根据应用场景分为声纹辨认和声纹确认,根据语音文本内容分为文本相关和文本无关两类。本文主要研究难度较大且应用范围更广的文本无关声纹识别,采用深度卷积神经网络提取声纹特征,在两个开源的数据集上分别进行声纹辨认和声纹确认的实验,最后使用前后端分离的技术设计并实现了Web端的声纹识
论文部分内容阅读
生物特征识别技术在各种智能终端的身份验证场景中起到越来越重要的作用。在生物特征识别技术中,声纹识别是最热门的技术之一。声纹识别根据应用场景分为声纹辨认和声纹确认,根据语音文本内容分为文本相关和文本无关两类。本文主要研究难度较大且应用范围更广的文本无关声纹识别,采用深度卷积神经网络提取声纹特征,在两个开源的数据集上分别进行声纹辨认和声纹确认的实验,最后使用前后端分离的技术设计并实现了Web端的声纹识别系统。论文主要工作与贡献总结如下:(1)设计并改进声纹识别系统框架。该框架包括训练、微调、注册和评估四个阶段。训练阶段得到通用背景模型,微调阶段对该模型进行调优,注册阶段利用该模型得到注册的说话人模型,评估阶段计算测试语句和说话人模型的相似度分数,根据分数做出相关决策。(2)提出并设计两种基于注意力机制的深度卷积神经网络结构,用于声纹特征的提取。分别使用SE注意力机制和CBAM注意力机制以不同方式对残差块进行改进,通过堆叠改进的残差块加深网络的深度,最后得到SECNN模型和Attentive CNN模型。模型的输入是语音信号经过预处理后得到的语谱图,输出是说话人的句子嵌入。本文提出的SECNN和Attentive CNN模型在Librispeech数据集上的声纹识别实验中,声纹辨认的准确率分别为95.15%和95.31%,声纹确认的等错误率分别为5.82%和6.55%,两个模型的性能均优于基线模型Deep Speaker模型。(3)使用三元组损失函数对SECNN模型和Attentive CNN模型进行微调以改进模型性能。采用两种不同的三元组采样方法:随机采样三元组和优化后的三元组采样生成批次数据,以最小化三元组损失为目标来优化两个模型。声纹确认实验结果表明,采样用优化后的三元组采样方法微调的SECNN模型和Attentive CNN模型与原有模型相比,将TIMIT数据集上的等错误率分别降低了2.26%和2.07%,将Librispeech数据集上的等错误率分别降低了0.61%和1.19%。
其他文献
声表面波(SAW)传感器利用声表面波绝大部分能量集中在基底表面的特点,可以制备出非常灵敏的气体传感器。聚丙烯酸(PAA)由于成本低、工艺简单以及材料本身含有大量羟基和羧基,因此非常适合作为声表面波传感器的敏感膜。本文制备了基于PAA和PAA/聚乙烯醇(PVA)的声表面波氨气传感器,研究了传感器对于氨气的检测性能。PAA表面含有大量的羟基和羧基,使其能够很好地吸附水分子和氨气。基于PAA制备的SAW
近年来,随着《中国制造2025》国家战略的全面推进,我国新能源汽车得到了大力发展。永磁同步电机由于具有结构简单、体积小、重量轻、动态性能好等优点,在新能源汽车领域被广泛使用为驱动电机。在对永磁同步电机进行矢量控制时,需要准确地检测转子的实时位置和运行速度等信息,通常是在转子的轴上安装机械传感器,其缺点是不仅会增加整个系统的成本,也会受到纯电动汽车复杂行驶环境的影响降低工作可靠性,因此研究永磁同步电
随着各类网络资源的指数式增长,搜索引擎的使用已经成为当今社会每个人最基本的技能之一,高效的信息检索模型也有着更加重要的意义。在排序过程中引入机器学习方法的排序学习是信息检索模型的一个关键组成部分,取得了十分优秀的效果,能够在很大程度上满足人们在信息过载的时代的检索需求。但排序学习模型将排序看作一个静态的过程,一次性将和关键词相关的文档全部输出。在实际的检索场景中,使用者和检索模型之间是存在交互的,
随着电子工业技术的不断进步与发展,各电子产品生产厂商对电子器件的需求量也在急剧增加。在自动化生产过程中,难免会出现存在内部物理缺陷(如气泡、空洞、裂纹及杂质等)的电子器件。早期,各生产厂商会采用人工排查的方式或图像处理相关的算法过滤存在缺陷的器件。然而,这些方法不仅耗时而且检测精度较低。随着深度学习的发展,使得利用该技术快速、准确地检测存在缺陷的电子器件成为一种可行方案。本文为了提升电子器件缺陷检
在自由飞试验过程中,风洞中模型的舵面偏角、姿态角以及迎角和侧滑角都是风洞中表示模型姿态的重要指标。但是风洞中现存的对各个指标的测量方法都存在一定的缺陷,尤其是对于迎角和侧滑角的测量,使用风标传感器测量时,会影响模型的气动特性。所以为了更加精确得对风洞中的模型参数进行测量,本文进行了基于Optitrack运动捕捉系统对模型姿态测量的方法研究。本文根据风洞试验要求,采用新型的光学运动捕捉系统—Opti
随着机器学习、深度学习研究的深入,越来越多的研究人员开始将工作重心转移到图结构数据学习的探索中,这主要是因为图结构数据是很多现实应用中天然的数据载体,例如社交网络、引文网络以及生物分子。这一研究热潮也导致了大量图学习模型的产生,例如图卷积神经网络、图注意力神经网络以及Graph SAGE。这些图神经网络也被广泛应用于各种实际应用中,例如节点分类、图分类以及网络对齐。虽然现有图学习方法在各类应用中取
互联网不仅深刻改变了人们生活、工作方式,也对许多传统行业产生了巨大的影响。例如,在线广告已经取代电视、报纸、广告牌等传统媒介,成为主要的广告投放模式。特别是结合大数据分析的广告精准定向投放已经被广泛部署到了各种电商、视频、社交网站,为平台方和产品方均带来了巨大的经济收益。作为广告实现精准投放的关键,点击率预测算法获得了来自学术界和工业界的持续关注。本论文对目前已有的各种点击率预测算法展开研究,特别
日常生活中人类通过视觉、听觉等高级感知能力来接收信息,经过大脑的高效处理就可以转换为可以理解的信息。计算机存储和运算的能力惊人,但是并不能像人类一样直接理解接收到的视频、音频信息,而语音是生活中最常见且有效的沟通方式。人们开发出了语音识别技术,目的是让计算机可以“思考”人们所说的话,并将其变换为抽象等级较高的文字符号。得益于计算机性能的提高和深度学习的应用,目前干净语音的识别效果已经达到并超过了人
随着全球老龄化的日趋严重,共病共存现象已经变得越来越普遍,如今成为对老人生命安全的最大威胁因子。由于共病间可能存在某些内在联系,对于治疗和护理都会带来许许多多问题,因此充分了解慢病间的关联性,患者和疾病的关系等多元信息成为解决共病的关键因素,有利于对共病进行综合诊断和科学的护理。本文基于2015年1月1日至2019年12月31日某区域的二级以上医院住院的病案首页数据信息,为了充分挖掘数据信息,了解
随着深度神经网络技术的不断发展,使用深度学习处理医学图像逐步成为医学图像处理研究领域中的热点问题。其中彩色眼底图像是眼科疾病筛查中一类较为常见的医学图像,它主要包括了视盘、视杯、血管和黄斑区等结构,这些结构的形态可以为某些疾病提供重要的诊断依据,如视杯与视盘的直径比值可以用于青光眼的诊断,出血、渗出、微血管异常等可以作为糖尿病的诊断依据,视网膜动脉病变可能是高血压的症状之一。为了准确地判读眼底图像