论文部分内容阅读
歌曲是人们用来抒发情感、表达态度的一种重要手段。传统意义上讲,音乐是一门听觉艺术。旋律的变化、音调的起伏让人们在欣赏音乐的同时可以感受到歌曲的情绪变化。随着计算机技术的发展和生活水平的提高,人们已经不单单满足于“聆听”音乐,更想“看见”音乐。因此,音乐可视化工作渐渐走入人们的视野。传统的音乐可视化工作大多基于歌曲的音频特征,利用视觉频谱显示频率和音调的变化可视化音乐的进程。然而这种通过视觉频谱的方式显得过于乏味,若能通过变换的图像表达会更加有趣和直观,对于人们深刻理解音乐也会有很大帮助。具体说来,我们发现歌曲的重要组成形式——歌词之中存在着可以用图像表征的元素,并且歌词蕴含的情感同图像情感也存在着对应的一致性。因此,我们通过歌词作为歌曲的媒介,建立歌曲和图像之间的关联完成了可视化工作。同时,对于数据驱动的深度学习技术而言,一个高质量的数据集是十分必要的。鉴于目前还没有公开的歌词配图相关的数据集,我们制作了一个带有情感标签的歌词-图像数据集,并在上面进行了大量实验,证明我们通过歌词配图以可视化音乐的方法是有效的。因此,我们工作的贡献主要包含以下几个方面:首先,我们通过歌词作为媒介建立了歌曲和图像之间的关联以实现音乐可视化;其次,我们建立了一个带有情感标签的歌词-图像数据集,并提出了利用多模态融合方式进行歌词配图的可行方法;在观察到图像和歌词之间存在着情感的对应性后,提出利用多任务学习方法辅助提高歌词配图的准确度,提高配图质量;在此基础上,考虑到歌词文本与图像之间不具备直接描述性,提出利用注意力机制增加歌词和图像关联内容的权重,使得歌词配图的准确率更高。最后根据我们的歌词图像检索模型完成了歌词配图应用的开发,利用带有时间戳的歌词信息,给出每一个歌词片段的最佳候选图像,再辅以与歌词同步的音频作为背景音乐形成音乐视频,从而达到音乐可视化的目的。