论文部分内容阅读
音乐作为一种艺术,有着悠久的发展历史,产生了许多脍炙人口艺术作品。随着计算机性能的提升,音频处理技术也取得了极大的发展,近年来,深度学习技术被用于音频信号分离的研究,成为了音频信号处理领域日益流行的话题。推动了基于深度学习技术的音源分离领域的发展。本文选取由语音和钢琴伴奏构成的混合语音和由钢琴和小提琴构成的混合乐器音频作为研究对象。利用音频信号分析和神经网络算法进行分析和研究。分析各种音频的时域和频域特征,包括语音信号的稀疏性和音乐信号的反复性。选取音频信号的对数功率谱(129维)作为特征参数,对样本进行预处理和特征提取。实现了基于深度神经网络的音源分离模型(5Layer-DNN模型和6Layer-DNN模型)和基于卷积神经网络的音源分离模型(CNN模型)。利用5Layer-DNN模型对由语音和钢琴伴奏组成的混合语音进行音源分离,并采用PESQ指标对分离结果进行评价。通过对比40、50、60这三种迭代次数的PESQ评价结果,表明当迭代次数为50时,模型已经收敛;将5Layer-DNN模型与L-MMSE算法对比说明本文采用5Layer-DNN模型在语音源分离方面性能更优。分别利用5Layer-DNN模型、6Layer-DNN模型和CNN模型,对钢琴和小提琴两种乐器混合的音频进行音源分离。对比分析3个模型进行乐器源分离后的SDR、SIR和SAR评价指标,表明5Layer-DNN模型对混合乐器音频的钢琴分量的分离效果较好;6Layer-DNN模型对小提琴分量的分离效果更显著。而CNN模型的分离效果要差于前两者。3个模型进行乐器源分离得到的钢琴分量和小提琴分量的SIR值的平均值为9.6,并且平均主观MOS评分都在3-3.5之间(5分为满分),说明本文所用3个模型,尤其是5Layer-DNN模型对混合乐器音源分离的效果是有效的。