论文部分内容阅读
随着多媒体技术与应用的快速发展,数字音乐在过去的几十年中,无论是在线上还是线下,都获得了快速发展,已成为人们日常广泛使用的主要多媒体资源之一。与此同时,为了对大量的音乐数据进行有效地管理、索引、搜索以及根据用户的兴趣进行推荐,出现了各种各样的基于内容的音乐信息检索(MIR)技术。其中,作为一种有效的音乐信息提取手段,自动生成和赋予音乐相关的语义标签对于很多音乐相关应用(如音乐推荐、播放列表生成、音乐相似度测量等)具有重要的意义。音乐的标签是一些描述音乐内容或属性的关键词,包含了音乐的高层次语义信息,例如音乐的情感、流派、演奏乐器等。其中,作为一种重要的语义标签和属性,音乐的情感类别描述了音乐反应的内在情感,被认为是管理或搜索音乐时的一种重要准则。本文针对音乐的自动标注和情感分类问题开展了深入的研究并提出了相应的有效算法。针对音乐的自动标注问题,本文提出了一种结合卷积神经网络(CNN)和循环神经网络(RNN)的音乐标注方法。不同于已有基于深度神经网络的音乐标注方法,该方法在CNN中集成了 1-D卷积层和深度可分离的卷积层,相对于使用传统的2-D卷积层,本方法不仅能够更好地从音乐的2-D Mel频谱图表示中学习有效的特征描述,而且使用了更少的参数,从而提高了网络的学习效率,同时提升了标注的性能。同时,本方法引入了压缩激发网络(SENets)中的结构压缩-激发结构(SE block)进一步提升了CNN模型的性能。本文方法在CNN后连接了一个长短期记忆深度神经网络(LSTM)结构,用以捕捉音乐中内在的时间序列结构。针对音乐的情感分类问题,本文提出了一种生成式和多模态的方法来对音乐的情感特性进行分类。该方法基于对音频和歌词两种模态之间的相关性进行有效学习,并将两种模态的联合概率分布作为刻画不同情感类别的关键手段。本文提出了有效的算法用以计算音乐中歌词与音频特征之间、歌词与歌词之间的概率联系以及歌词的先验概率,并通过最大化音乐多模态数据的联合概率,把输入音乐分类为某一特定的情感类别。为了验证所提出方法的有效性,本文在MagnaTagATune、MusiClef等广泛采用的音乐数据集上对论文方法进行了实验测试与分析。实验结果表明,相对于已有的相关方法,本文提出的基于层次化深度神经网络的音乐标注方法和多模态生成式音乐情感分类方法有效的提高了音乐标注和情感分类的性能,达到了预期的研究目标,同时具有在后续工作中进一步改进和应用到其他问题领域的潜力。