论文部分内容阅读
声源定位技术作为语音信号处理系统的前端,广泛应用于视频会议、听觉辅助设备、智能机器人等场合。基于双耳的声源定位研究有着设备小型化的优势,以往的双耳声源定位研究大多利用ITD(Interaural Time Difference)与IID(Interaural Intensity Difference)模拟人耳听觉机制,但是在混响与噪声环境下定位性能下降很快。本文以双耳空间线索为基础,结合深度学习中的卷积网络与残差网络,研究鲁棒的双耳语音定位算法。本文深入研究了两种基于深度学习的双耳声源定位算法:基于深度卷积神经网络DCNN(Deep Convolutional Neural Network)的双耳声源定位算法以及基于深度卷积残差网络DCRN(Deep Convolutional Residual Network)的双耳声源定位算法。(1)基于DCNN的双耳声源定位算法。基于DCNN的双耳声源定位算法引入了卷积运算,分别基于一维卷积与二维卷积实现了不同的DCNN模型。本文采用了特征融合的方式对不同子带上的特征进行组合,避免了模型的反复训练。此外,DCNN引入的卷积运算具备的参数共享特性极大缩减了模型的冗余参数,加速了网络的训练过程。在多种混响与信噪比环境的测试结果表明,DCNN模型具有很强的鲁棒性,相比于子带DNN算法,DCNN模型将高信噪比高混响环境下的定位准确率提升了11个百分点。(2)基于DCRN的双耳声源定位算法。基于DCRN的双耳声源定位算法是对DCNN算法的改进。DCRN算法中在卷积网络的基础上引入了残差结构降低了模型训练的难度,使得DCRN模型能够利用更深的层数进行训练。此外,DCRN中还引入了BN(Batch Normalization)层,进一步加速了模型的收敛。测试结果表明,DCRN模型不仅对未知的混响与信噪比环境有着更好的泛化性能,而且其定位性能也比DCNN模型更好,DCRN13模型在不同环境下比DCNN模型性能平均提升有2%以上。