面向声纹识别的神经网络损失函数研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:ldbeight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别是一种生物身份识别技术,通过从说话人数据集中提取出包含说话人信息的特征,对其进行计算分析后,来对说话人的身份进行鉴别。在深度学习和神经网络的背景下,声纹识别不断实现了性能上的新突破。在训练深度神经网络做声纹识别的过程中,损失函数对于神经网络的收敛起着至关重要的作用。三元组损失函数(Triplet Loss)无法将多说话人的声纹特征成批地组成矩阵进行训练;广义端到端损失函数(Generalized End-to-end Loss)需要大规模语音训练才能收敛;而基于向量角度SoftMax的损失函数(Angular SoftMax Loss)对相同说话人的类内特征的聚集效果不够好。声纹识别方法中,目前占主导地位基线系统的是标准i-vector系统,它能有效地表达说话人的音频特征进行说话人识别。基于以上研究基础,本文针对Triplet Loss、GE2E和Angular SoftMax Loss在多说话人的分类过程中的缺点,对现有的函数损失值计算方法进行了研究并提出了改进方案,提出了将损失函数进行加权联合使用的改进方法。通过加权调整策略,在相同类的embeddings距离关系的基础上,引入了新的权重值并重新调整。对新模型的系统性能进行测试,说明了改进算法的可行性。在大于1000小时的大规模数据集上成功进行了实验,实验结果表明,相比原始神经网络的损失函数,改进后的损失函数使得声纹识别系统在大规模数据集中取得了相对64%提升,最优的等错误率达到了 0.01。
其他文献
摘要:从链接的角度建立了一套评价图书馆网站信息资源利用情况的指标体系,根据指标对数据进行收集,采用主成分分析法从整体上评价图书馆信息资源的利用情况。  关键词:网络信息计量;链接分析;网站资源  中图分类号:G203 文献标识码:A文章编号:1007-9599 (2011) 09-0000-01  Evaluation Model Construction of Library Network I
水泵的修理、维护、调节及调试等技术的工作,都是钳工来完成的。因此,掌握精湛的修理技术,不断地提高钳工本身的专业技术水平、专业知识水平,避开水泵修理工作中的禁忌,是研究、讨
单环刺螠纤溶酶(Urechis unicinctus fibrinolytic enzyme,UFE)是由UFEⅠ、Ⅱ、Ⅲ、Ⅳ一系列同工酶组成的纤维蛋白酶,具有良好的抗凝、溶栓活性和生物安全性。然而,由于不同文献中UFE样本的采收时间、提取部位、提取方法的不同,且尚无同工酶间的活性差异研究,导致科研数据差异大,实验结果无法被重复。本课题选取我国海域具有代表性的单环刺螠生物体,旨在研究其体内纤溶酶的
近年来,随着中国经济高速发展,旅游业逐渐繁荣起来,这使得民用客机的需求量快速增加,全球领先的飞机制造商不断被吸引陆续登陆我国,制造的飞机航空制造企业对我国的战略意义