基于深度学习和迁移学习的音乐分类研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:mengfan1229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐分类作为音乐信息检索的关键组成部分是处理海量音乐信息的重要手段。随着人们对音乐内容检索需求的提高,近年来音乐分类的研究主要集中在寻找基于音乐内容的流派和情感的分类方法上。然而使用人工标注分类成本高昂且不可扩展,所以实现自动标注分类成为现在主要的研究方向。在自动分类方法中,使用手工提取声学数字特征进行特征提取需要专业的先验知识和复杂的实验操作,工程实现面临着巨大的挑战。结合深度学习技术在图像识别领域的巨大成功,本文利用深度学习技术强大的特征自动提取能力来替代复杂的特征工程,通过改进的卷积神经网络对音乐音频分类进行了系统的研究,为音乐分类研究提供了一种新思路。针对音乐流派分类,本文直接使用声谱图作为模型输入,设计一维卷积神经网络(1 D-CNN)为特征提取模型,以声音轴作为宽度,频率轴作为通道,兼顾了音频时序特性和卷积局部感知特性。本文创造性地提出将密集连接网络的连接方式引入1D-CNN模型,实现了信息的复用和特征的交互。整体模型采用基于音频切片的方式进行卷积网络模型训练,通过平均音频各切片卷积网络输出特征形成音乐特征向量完成特征提取,充分利用了卷积网络特征提取的能力,最后使用支持向量机(SVM)作为分类器来提高特征分类性能。此外,本文提出了时间重叠裁剪和音调偏移方式进行数据增强。本文针对提出的模型(Dense+SVM)进行了详细的介绍,并且通过多组对比实验,证明了 Dense+SVM可以有效提升分类准确率。针对音乐情感分类,本文基于迁移学习来解决标注数据不足的问题,提出了两种迁移方法。第一种方法通过迁移卷积部分模型,实现流派和情感的模型参数知识共享,微调模型提取特征进行SVM分类。第二种方法进行了特征多层次融合迁移,通过将卷积层特征进行拼接形成特征向量,将低级语义信息和高级语义信息结合起来,并且结合了主成分分析(PCA)进行特征主成分选取,减少冗余特征,实现分类器输入特征的有效降维。实验表明,本文提出的特征多层次融合和降维方法可以有效提升情感分类的准确率。
其他文献
生成模型的应用?分广泛,可以用来不同的数据进行建模,比如图像、文本、声音等。其中,深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的分布。强化学习作为机器学习领域一大重要组成部分,在机器人控制、机器翻译以及推荐系统上具有广泛应用。传统强化学习通过不断与所处环境进行自主交互并从中得到策略实现决策过程。然而,目前大多数多步决策问题难以给出传统强化学习所需要的即时反馈信号。这也逐渐成
为探索稻草对辽宁绒山羊成年母羊的饲喂价值,本试验对稻草在辽宁绒山羊成年母羊瘤胃的降解特性;辽宁绒山羊成年母羊对稻草的消化率;饲喂稻草比例对辽宁绒山羊成年母羊的瘤胃发酵内环境、生长性能、血液生化指标及经济效益影响这些方面进行了研究。选用10只安装永久瘘管的辽宁绒山羊成年母羊,随机分2组,每组5只,以玉米秸秆为对照来测定稻草在辽宁绒山羊成年母羊瘤胃的降解特性。采用尼龙袋法测得稻草的干物质、粗蛋白质、中
在国家大力发展绿色建造的大环境下,装配式建筑因其节能环保、缩短工期、减少现场劳动力等优势,受到国家的提倡和重视,装配式建筑将成为建筑业转型升级的必然途径。在政府部
乙醇作为一种化学物质在食品工业、能源产业中都有着重要的使用价值。在乙醇的生产过程中,如何对乙醇浓度进行精确的监控对于乙醇的工业化生产具有重要意义。本文制作了半导体乙醇气体传感器并研究了其对高浓度乙醇气体的响应特性。传感器的敏感材料为TiO_2,材料结构为独立式纳米管阵列。首先,本文通过电化学阳极氧化在NH_4F-乙二醇-水的电解液体系中制备得到TiO_2纳米管阵列,对阳极氧化过程中的氧化电压、氧化
随着医学图像共享和远程诊断技术的发展,越来越多的医学图像需要在网络上进行传输。在网络传输的过程中,医学图像面临着非法复制、窃取和泄露等安全风险,数字水印可以解决这类安全风险问题。因此,用于版权保护的医学图像水印技术成为研究热点。本文针对传统医学图像水印方法不具有普适性的问题,将深度学习引入到数字水印技术的研究中,自适应地根据医学图像的特征设计合适的水印算法。主要研究内容概括如下:第一,提出基于深度
非达霉素是一种新颖的18元环大环内酯类抗生素,于2011年5月获FDA批准用于艰难梭菌引起的腹泻的治疗。非达霉素的临床治愈率高于万古霉素,复发率低于万古霉素,是目前理想的抗艰难梭菌药物。本文研究了非达霉素的分离纯化条件,探索出一条工艺简单、提取收率高、成品纯度高的提取工艺路线。该工艺先用板框过滤去除发酵液中的色素、无机盐等杂质,收集菌体;然后向菌体加入3倍乙醇浸泡2小时,再过滤得到浸泡滤液;向浸泡
近年来随着人们出行次数增多,公共场所的安检压力也随之增大,如果对每一个乘客按传统方法依次检测会耗费大量时间,因此需要能对运动中的行人快速安检的技术。相比于针对静止物体的毫米波安检成像系统,针对运动物体的毫米波成像系统还未成熟,现存的成像算法还有一些使用限制。因此,本文中研究了针对静止和运动物体的毫米波安检系统与成像算法。论文的主要工作和贡献包括:(1)提出了解混叠成像算法。对静止物体成像而言,在实
依赖互联网的蓬勃发展,大规模在线开放课程(Massive Open Online Courses)自现世以来在一定程度上实现了知识的传递和教育的革新,在一定意义上扩大了高等教育的对象边界。然而,其低学习效率,高退学率等缺点也广受诟病。同多数社交系统一样,学习者的线上交互行为也可以被描述为复杂系统及网络相关过程。每个学习者代表了网络中的个体(节点),个体的交互组成网络中的复杂关系。与之同时,大数据和
随着我国经济的快速发展,社会处于高速发展时期,因此,建筑行业呈现出了不断发展的趋势,对于建筑工程来说,质量是最重要也是最基础的问题,只有保障建筑工程的质量,才能促进我
行人检测是计算机视觉领域中的一个重要分支,主要是指从图像中寻找行人目标并确定其位置。人群密集场景下的行人检测是一项具有挑战的工作,对于现有的行人检测算法难点主要包括目标密度高并存在自遮挡,导致损失函数回归的边界框位置不准确;检测框架后处理的硬筛性,造成了目标的漏检和误检,致使在密集场景下行人检测精确度较低。近年来,随着计算机硬件及人工智能技术的飞速发展,基于深度学习的目标检测算法在检测精度方面获得