基于深度学习的声纹识别方法研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:shiguangli010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别是生物特征识别与认证领域的一个重要分支,它通过分析说话人的语音信号,提取合理的声纹特征和建立有效的分类识别模型,对说话人的身份进行校验和鉴别,广泛应用于刑侦、人机交互声纹口令验证、银行声纹身份验证、人体康复指标验证等领域。论文以面向刑侦身份验证的技术需要为牵引,针对实际采集的声音信号不可避免带有较强的环境噪声和设备噪声、且噪声多为平稳白色高斯的特点,采用具有自适应噪声强度的维纳滤波实现噪声的有效去除,以消除或降低噪声对后续声纹识别的影响;分析了声纹语谱图的时序和空间信息特征,为限制语谱图维度过大,确定了以4秒长度的声纹信号的语谱图特征作为分类识别特征,并采用常见的高斯混合模型(GMM)与通用背景模型(UBM)相结合的声纹识别模型,针对开放的Surfingtech中文普通话语料库,开展了声纹识别实验。实验结果表明,确定的维纳滤波去噪、声纹语谱图特征提取对提高声纹识别准确性的效果明显;在此基础上,为降低声纹语谱图存在的冗余信息,以有利于提高深度学习网络训练学习效率,提出词嵌入语谱图降维方法,并结合具有捕捉信号时序特征的长短期记忆网络(LSTM),提出了基于词嵌入LSTM深度学习的声纹识别方法,对比实验结果表明,基于词嵌入降维LSTM声纹识别方法,其识别准确性和效率均明显提高;鉴于LSTM深度网络仅利用了声纹语谱图的时序特征,没有考虑其空间特征,为进一步提高声纹识别的准确性,充分利用深度卷积神经网络(CNN)对输入图像的空间信息特征具有良好捕捉能力的特点,提出LSTM与CNN相结合的深度学习网络结构设计思想,并通过实验验证,得出先采用CNN网络捕捉语谱图的空间信息、后续采用LSTM捕捉其时序特征有利于提高声纹识别准确性的结论。对比实验结果表明,词嵌入语谱图降维,结合CNN_LSTM混合深度学习网络结构,在标准语音数据集测试集取得了97.42%识别准确率,比采用单一LSTM模型提高了4.25%;针对实际声纹识别任务,在给定10个嫌疑人先验信息条件下,本文提出的维纳滤波、词嵌入语谱图降维、CNN_LSTM声纹识别方法,准确率达到95.48%。
其他文献
雷达抗干扰能力是雷达系统在现代战争中日益复杂的电磁干扰环境下发挥正常作用的重要依赖手段。由于单站雷达视角单一,能够展现的抗干扰能力有限,在对抗一些欺骗式干扰时有很
一、甘肃蜜源植物种类与分布甘肃地处祖国西北要冲,南去青海、北上宁夏、西进新疆、东返陕西之便,历来为转地放蜂必经之地;加之甘肃地域辽阔,地形复杂,气候温和,资源丰富,又为全国蜜
近年来,随着光电技术的飞速发展,光学干涉检测因其高精度、高灵敏度、实时、全场测量、无损等优点在超精密加工、国防军工、生命科学等领域应用广泛。在力学实验中,对被测物体进行干涉检测,获得干涉条纹图,并对干涉条纹的变化进行深入分析来解决实际问题至关重要。本文基于光学干涉检测对若干个应用进行了详细分析,具体内容为:1.介绍了光学干涉的原理和相移干涉算法,并对时间序列位相提取算法的灰度型信号与位相型信号进行
当前,我们身处在一个飞速发展的"互联网+"时代,众多传统行业在"互联网+"的风潮下完成了产业升级。联网对金融业的影响更是多方位的,从融资模式到支付方式,对人们传统的生活方式和支
目的探讨一氧化氮参与卵泡发育和凋亡的机制。方法采用免疫组化的方法检测NO供体硝普钠(SNP)对成熟大鼠卵巢中凋亡调控蛋白Bcl-2、Bax表达的影响。结果实验(SNP)组Bcl-2蛋白
朗读能力与语言表达能力有着密切的关系:朗读对汉语口语表达能力和听力水平的提高以及语感的培养有着显而易见的功效。文章针对当前对外汉语语音教学现状和存在的一些问题,提
<正> 一个好的调研报告往往是由鲜明的观点和厚实的材料所组成(当然还有结构和语言等方面)。观点是调研报告的灵魂,是材料的统帅。调研报告如果没有鲜明的思想性、实践性、经
本文首先讨论了中石化所处的外部环境、经营特点以及发展中存在的问题;接着介绍了国际石油流通业的发展趋势和对中石化的借鉴意义;最后针对企业的特点、存在问题,结合国际石
元杂剧《秋胡戏妻》记录了媒人、合髻礼、红定、肯酒、休书等元代婚俗,这些婚俗事象环环相扣,与剧情巧妙杂糅,不仅展现了元代的婚俗文化,亦成为推动剧情发展、刻画人物形象的