论文部分内容阅读
如今随着互联网技术的飞速发展,在线的音乐服务逐渐成为人们收听音乐作品最便捷和主要的方式。面对海量的音乐作品,音乐信息检索系统性能关系到音乐服务的质量,其中的自动流派分类技术是基于内容的音乐信息检索的重要组成部分,因而成为了近年来研究的热点。音乐信号具有复杂的频率构成和丰富的语义信息,找到对音乐的有效特征表达是流派分类的关键。本文基于深度学习的方法,对音乐信号进行建模分析,通过深度神经网络进行自动的学习,获取信号中与流派相关的语义信息和时频特征表达,从而提高分类的准确率。具体工作和创新点如下:1.研究了音乐信号的语义信息提取,提出使用循环神经网络的流派分类算法。由于传统的特征都是基于语音信号的短时平稳特性,而语义信息则蕴藏在较长时间段的上下文中。因此,可以利用循环神经网络的记忆特性,对短时特征组成的特征序列进行学习,获取其中的上下文信息。实验结果表明,使用了循环神经网络后获得的语义特征比原始的短时特征的统计量能更好地描述分析窗长内的音乐特性,在GTZAN和ISMIR2004两个数据集上的分类准确率分别达到81.85%和83.7%。2.研究了音乐信号的时频特征自动提取,提出使用卷积神经网络的音乐流派分类算法。语音信号的声谱图能反映出一段音频的时频特性,以声谱图作为原始输入,利用卷积神经网络的局部和全局感知特性,从声谱图中体现的频率分布和变化中学习局部特征,通过多层卷积将局部特征进行组合形成了高层和全局的表达。同时,在卷积网络中加入了残差单元和随机深度策略,提升网络性能。最后,将卷积神经网络和循环神经网络的优点相结合,提出卷积循环神经网络,完成了从声谱图到分类结果的端到端的流派分类算法。实验中,卷积循环神经网络在GTZAN和ISMIR2004两个数据集上的分类准确率分别达到88.16%和89.93%,超过了目前基于卷积神经网络和手工特征的分类算法。本文提出的音乐流派分类算法,有助于音乐信号的高层语义特征提取的研究,以及推进深度学习方法在音乐信号分析领域的应用。