基于深度学习的鲁棒双耳声源定位研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:Mr__x007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声源定位技术作为语音信号处理系统的前端,广泛应用于视频会议、听觉辅助设备、智能机器人等场合。基于双耳的声源定位研究有着设备小型化的优势,以往的双耳声源定位研究大多利用ITD(Interaural Time Difference)与IID(Interaural Intensity Difference)模拟人耳听觉机制,但是在混响与噪声环境下定位性能下降很快。本文以双耳空间线索为基础,结合深度学习中的卷积网络与残差网络,研究鲁棒的双耳语音定位算法。本文深入研究了两种基于深度学习的双耳声源定位算法:基于深度卷积神经网络DCNN(Deep Convolutional Neural Network)的双耳声源定位算法以及基于深度卷积残差网络DCRN(Deep Convolutional Residual Network)的双耳声源定位算法。(1)基于DCNN的双耳声源定位算法。基于DCNN的双耳声源定位算法引入了卷积运算,分别基于一维卷积与二维卷积实现了不同的DCNN模型。本文采用了特征融合的方式对不同子带上的特征进行组合,避免了模型的反复训练。此外,DCNN引入的卷积运算具备的参数共享特性极大缩减了模型的冗余参数,加速了网络的训练过程。在多种混响与信噪比环境的测试结果表明,DCNN模型具有很强的鲁棒性,相比于子带DNN算法,DCNN模型将高信噪比高混响环境下的定位准确率提升了11个百分点。(2)基于DCRN的双耳声源定位算法。基于DCRN的双耳声源定位算法是对DCNN算法的改进。DCRN算法中在卷积网络的基础上引入了残差结构降低了模型训练的难度,使得DCRN模型能够利用更深的层数进行训练。此外,DCRN中还引入了BN(Batch Normalization)层,进一步加速了模型的收敛。测试结果表明,DCRN模型不仅对未知的混响与信噪比环境有着更好的泛化性能,而且其定位性能也比DCNN模型更好,DCRN13模型在不同环境下比DCNN模型性能平均提升有2%以上。
其他文献
国际政治经济环境复杂多变,国内的市场化改革持续推进,充斥在我国市场经济环境中的不确定性因素势必会给农产品市场带来严重的冲击。在理论方面,本文使用“经济政策不确定性
[目的]研究黄芪甲苷(AS-Ⅳ)对乳鼠原代心肌细胞缺氧/复氧(H/R)损伤的保护作用及机制。[方法]培养乳鼠原代心肌细胞,以缺氧4h,复氧4h建立心肌H/R损伤模型。四甲基噻唑蓝(MTT)
本文研究了战时航空装备保障重难点问题及相应对策.战时航空装备保障是一个系统而复杂的工程,它面临许多问题,根据陆航装备保障的基本情况,战时陆航装备保障的重难点问题主要
只有采用足够小的能量输入,获取更大的空气动力收益后,主动流动控制才有可能在真实飞机上获得更广泛的应用。脉冲吹气比定常吹气所需能量更少,控制效果更好,在改善翼型气动性
《圣洁的阿依达》是浪漫主义音乐时期意大利作曲家威尔第晚期歌剧《阿依达》中的代表性咏叹调,本文主要从演唱实践研究的角度展开讨论。全文由三章构成。第一章主要是对作品
针对中国奶业发展面临的双重约束,在分析原料奶价格波动的影响因素的基础上,构建VAR模型对影响中国原料奶价格波动的因素进行研究。从对原料奶价格波动的影响看,历史价格、进
氧化锆全瓷修复体优异的美学以及生物相容性,在过去10年来得到快速发展,但由于其崩瓷率较高,对牙体预备要求严格,制造成本较高等缺点,限制了其更广泛的使用。全解剖形态氧化
会议
16日,国家食品药品监督管理总局在官网发布通告,称2016年2月组织抽检婴幼儿配方乳粉194批次,发现不合格样品2批次,分别为标称陕西红旗乳业科技有限公司生产的优智婴儿配方羊
<正>目的探讨血清胱抑素C水平对慢性充血性心力衰竭(CHF)患者预后的影响。方法入选CHF患者60例,采用胶乳比浊法检测血清胱抑素C水平,并根据其水平分为升高组(n=41)及正常组(n
会议