论文部分内容阅读
声纹识别是一种生物身份识别技术,通过从说话人数据集中提取出包含说话人信息的特征,对其进行计算分析后,来对说话人的身份进行鉴别。在深度学习和神经网络的背景下,声纹识别不断实现了性能上的新突破。在训练深度神经网络做声纹识别的过程中,损失函数对于神经网络的收敛起着至关重要的作用。三元组损失函数(Triplet Loss)无法将多说话人的声纹特征成批地组成矩阵进行训练;广义端到端损失函数(Generalized End-to-end Loss)需要大规模语音训练才能收敛;而基于向量角度SoftMax的损失函数(Angular SoftMax Loss)对相同说话人的类内特征的聚集效果不够好。声纹识别方法中,目前占主导地位基线系统的是标准i-vector系统,它能有效地表达说话人的音频特征进行说话人识别。基于以上研究基础,本文针对Triplet Loss、GE2E和Angular SoftMax Loss在多说话人的分类过程中的缺点,对现有的函数损失值计算方法进行了研究并提出了改进方案,提出了将损失函数进行加权联合使用的改进方法。通过加权调整策略,在相同类的embeddings距离关系的基础上,引入了新的权重值并重新调整。对新模型的系统性能进行测试,说明了改进算法的可行性。在大于1000小时的大规模数据集上成功进行了实验,实验结果表明,相比原始神经网络的损失函数,改进后的损失函数使得声纹识别系统在大规模数据集中取得了相对64%提升,最优的等错误率达到了 0.01。