视听融合钢琴转录技术研究与系统实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:flash021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物质生活水平的提高,人们越来越重视精神生活的需要,选择音乐教育的人也越来越多。钢琴教育作为音乐教育中最为成熟的方向之一,吸引了众多学员。钢琴自动转录(Automatic Music Transcription,AMT)可以对钢琴演奏内容进行符号化输出,检测当前演奏的音符,输出音调、起始时刻、终止时刻,帮助演奏者记录演奏内容,提高演奏能力。
  本文研究并实现了钢琴的自动转录系统,输入钢琴演奏音频或视频,基于图像或声音检测各个音符的演奏信息,包括音调、起始时间、结束时间。本文的主要内容包括以下三个方面:(1)针对视听融合转录数据集缺乏的问题创建了PlayDataset,首次提出钢琴演奏的练习模式和表演模式,并考虑了演奏人、演奏难度和光照变化条件,在构建中综合考虑了视频转录和音频转录特点。(2)改进了现有的音频转录系统和视频转录系统。在音频转录系统中提出了能量均衡算法,强化了较弱的音频起始特征,在MAPSENSTDkCl数据集前30s音频评价F1值为88.38%;在视频转录中创新性地提出了双摄像头录制,解决了垂直于摄像头的琴键识别准确率低的问题,在PlayDataset中评价F1值为93.5%;(3)设计并实现了两个音视频融合转录系统:基于音频和视频单模态转录的逻辑融合转录系统,以及基于CNN的网络融合转录系统。两个系统在不同应用场景下各有优势,逻辑融合更适合快速的系统构建,网络融合适合对精确度和鲁棒性要求更高的系统构建。经实验测试逻辑融合在PlayDataset中F1值为94.5%,网络融合F1值为96.8%。
  经系统测试,本文实现的视听融合系统准确度和鲁棒性均高于现有的钢琴转录系统,其中基于CNN的网络融合系统转录效果最好,可以为钢琴教学提供支持。
其他文献
图片是一种重要信息载体。随着移动设备和互联网的普及,人们越来越多地通过图片来记录生活的点点滴滴。与此同时,随着人工智能技术的高速发展,如何让机器像人类一样自动高效地理解图片中的语义信息获得了空前的关注,促进了语义分割技术的出现和发展。语义分割在多种真实应用场景中都存在着巨大的需求,是自动驾驶、人物行为分析、医疗诊断等多种技术的基石,为未来的智能时代勾画了一个美丽的蓝图。
  然而,图片质量的差异性U不同的光照条件、遮挡、分辨率等V和图片内容的复杂性U多种多样的场景和物体类别V为语义分割任务提出了巨大
20世纪初,是一个神奇的年代,各种各样的工业科技奇迹,至今影响和改变着人们的生活,而本世纪的工业奇迹,则不得不说iPhone。所谓颠覆,并不是对过去的否定,而是用一种全新的视觉和体验,将以往的科技升华。这个风靡全球的时尚玩意,将手机不再简单的定位于通讯产品,丰富的互联网应用,使得每一个使用者,仅仅用拇指,就可以掌控生活。    联通iPhone 3Gs迄今最快最强的iPhone    作为最新一代
期刊
在深度学习技术的推动下,强监督语义分割技术取得了极大的进展。强监督语义分割的性能依赖于大量高精度稠密的标注数据,成本十分昂贵。为了解决语义分割对数据的需求,学者提出利用合成数据替代真实数据来训练语义分割网络。合成数据可以自动生成,规模大,成本小,有着巨大的应用价值。然而,由于域间差异存在,利用合成数据训练的分割模型在真实数据上性能会急剧下降。本文致力于开发无监督域自适应语义分割算法来解决这一问题。
  当前的无监督域自适应语义分割算法尝试从图像像素层面、网络特征层面或网络输出层面上对源域和目标域从独
随着各种智能应用的不断发展,获取准确的位置信息变得越来越重要。由于室内环境结构较为复杂,如何在室内实现准确的定位成为了近年来的一个热门研究课题,对此研究者们提出了许多不同的解决方案。其中,基于WiFi的室内定位技术成为了最热门的技术之一。
  本文研究了基于WiFi的RSS指纹的室内定位技术,主要研究了两个方面的问题:(1)室内定位模型;以及(2)指纹地图构造。
  在室内定位模型中,我们提出了两种定位模型:
  (1)基于卷积神经网络的室内定位模型CNNEu。相比于其他基于样本RSS或
温暖记忆抚慰人心    从沉淀的昨日情怀中找寻最为难忘的味道与感觉,最能抚慰人心。于是,慢慢收集、深情回味,缓缓开启冬日里一段最温暖的美好回忆。  那些初次相识“一触即红”的娇羞与惊喜,历历在目,至今仍不能忘怀它所富于的那份心动与甜蜜。而今,LG BL20e紧闭红唇的样子像极了第一代巧克力的样子,有过之无不及的前卫跃动与可爱迷人,如同暗夜精灵,让人忍不住想拥有。或许BL40e奢华的价格让人有些怯怯
期刊
随着信息技术的发展,现代教学方式也随之发生改变,除传统的课堂教学以外,网上授课、智慧教室等诸多新教学形式也流行起来。在教育逐渐步入智能时代的背景下,若能利用信息技术实现课堂智能分析系统,自动对课堂中学生的学习行为进行分析,为教师提供教学数据参考,将对提升教学效果、促进教学公平提供很大的帮助。
  本文设计了一个面向真实的小学课堂教学场景的学生学习行为识别算法,该算法利用网络摄像头实时采集课堂视频数据,自动分析课堂注意力信息和学生动作信息,并将其量化和可视化后的结果提供给教师。本文的主要贡献包括:(1
主演:  我——《数码》杂志编辑,爱拍照、爱逛街、爱时尚、爱所有新鲜事儿……这是第一次来日本,也是第一次和小卡单独相处的7天。  小卡——我对卡西欧EX-H10的昵称。她是日本血统,懂中文,秀外慧中,拍照最拿手,眼光很独到。这是小卡第一次在我面前展示自己的拍照技术。    故事背景:  如果没有这次卡西欧邀请的媒体团访日之行,我也许不会对像H10这样的卡片数码相机产生如此依恋之情。为了心无杂念地体
期刊
书法是中国传统文化的精髓,它融合了中国历史的文化底蕴和哲学内涵。目前,随着互联网技术以及计算机科学的发展,在移动设备上书写汉字越来越常见,书法正以全新的方式被传承和发扬。国内外对计算机手写美化的研究可以概括为四个方面:数字墨水、草图美化、书法生成、手写汉字美化。目前这四种技术都在各个领域得到了广泛的应用,但是仍存在一定的不足。一方面,数字墨水、草图美化、书法生成等技术存在美化效果较单一、不能很好体现用户特点等问题;另一方面,现有的手写汉字美化技术针对书写较差的汉字美化效果一般。
  本文提出了一种基
2009年是Android手机迅速崛起的一年,不论其UI设计还是用户体验都有着与其它智能手机相比不同之处,因此它也被Google寄予厚望,肩负起与其它智能手机操作系统分庭抗礼之重任。    风格明显的Android    Android一词的本义指“机器人”,同时也是Google于2007年11月5日宣布的基于Linux平台的开源手机操作系统的名称,该平台由操作系统、中间件、用户界面和应用软件组成
期刊
形成性评价是以学生为核心,通过对学生在学习过程中的态度、成果等方面做出评价,帮助教师改善教学策略的评价方式。形成性评价在国外教学中已经被广泛应用,并在实践中被证明具有促学作用。我国从21世纪初引进了形成性评价政策,并逐渐推行。但是目前在高等教育教学中,受限于传统教学思想与教师资源的紧缺,对学生的评价方式普遍侧重于对学习成果的测量,与形成性评价有一定差距。
  针对这种现状,本文对基于学习管理系统(Learning Management System,LMS)数据与课堂视频的形成性评价方法展开研究。研