基于深度学习的图像视频拍摄与编辑技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kikwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和社交网络的发展,图像与视频这种多媒体格式充斥了整个网络,这主要是由于其相对于文本有着更大的信息量与更生动的呈现方式。越来越多的用户在网络上通过图像视频分享他们的日常生活,旅行经历。通常,用户在素材拍摄与编辑过程中上花费了大量的时间精力于一些枯燥重复的工作,如调整曝光,图像裁剪,视频截取,后期特效等。因此,如何利用人工智能技术辅助用户拍摄与编辑图像视频,将用户从枯燥乏味的操作中解脱出来的研究工作亟待展开。本文立足与此,应用现今机器学习领域最领先的深度学习技术,对图像视频拍摄与编辑过程中的相关问题展开研究,提出了具有创新性的解决方案,并在实际场景中对其有效性进行了验证。具体的,本文选取了图像视频拍摄与编辑领域中三个有代表性的问题——图像视频拍摄过程中的曝光控制问题,图像编辑过程中的图像补全与目标移除问题和视频编辑过程中的精彩片段检测问题。本文通过分析上述问题中存在的难点,结合被广泛应用于计算机视觉与计算机图形学领域的深度学习技术,强化学习技术,生成对抗训练技术以及非监督学习技术,针对不同问题分别提出了系统级的解决方案,具有极强的现实意义与实用价值。首先,针对图像视频拍摄过程中的曝光控制问题,相对于传统的点测光,中心测光和矩阵测光算法,本文提出了包含注意力分支与曝光分支的两路网络结构,分别控制局部区域的曝光重要程度与曝光调整值。通过上述网络结构,系统可以更平滑的对场景中的曝光参照物进行预测与控制,大大提升了系统的曝光能力。上述系统还在公开数据集上进行了进一步的验证,取得了非常优秀的结果。其次,针对上述提出的曝光控制系统,通过进一步对用户数据进行分析研究,发现了曝光控制问题中的个性化需求。针对上述需求,本文提出了基于深度强化学习的个性化曝光控制系统。通过系统中深度强化学习技术的应用,克服了模型训练过程中数据标签收集困难的问题,大大简化了系统的训练过程,在使用有限数据标签进行训练的情况下取得了接近监督学习的结果。上述曝光控制系统为用户拍摄图像与视频提供了极大的便捷。通过拍摄得到的优秀多媒体素材更是为之后的编辑工作打下了坚实的基础。在上述基础之上,针对图像编辑过程中的图像补全与目标移除问题,本文提出了基于平滑部分卷积与自适应特征融合技术的图像补全系统。通过平滑部分卷积,对图像中的缺失区域按照对应的掩膜由外到内依次补全,并通过编解码结构中的自适应特征融合技术将不同层次的特征进行融合,最终得到补全后的图像。特别的,该技术可被进一步应用于图像编辑过程中的重要问题之一——目标移除问题,通过自定义掩膜对场景中多余的目标进行移除。该系统不仅在现有的公开数据集上进行了验证,取得了行业领先水平,还进一步在实际场景中进行测试,取得了优秀的结果。最后,针对视频编辑过程中的精彩片段检测问题,本文提出了基于自动编码器的非监督学习系统。该系统分析了实际应用中的困难点,克服了数据标注收集困难的问题,提出了基于非监督学习的方法,通过网络爬虫简单高效的对系统训练数据进行扩充,将训练数据的规模轻松提升了一个量级。在上述基础之上,针对视频特征编码问题,提出了基于3D卷积和长短时记忆单元相结合的特征编码方式,分别从不同粒度对视频帧之间的依赖关系进行编码,在大规模数据集上取得了优秀结果。特别的,本文提出的系统还在公开数据集上与现有的监督学习方法进行了对比,在部分类别上取得了相接近的结果。综上,本文工作成功的将深度学习技术应用于图像视频拍摄与编辑领域,针对其中不同问题提出了创新有效的解决方案。所提出的系统还在实际场景中进行了测试,取得了普遍领先行业水平的结果,具有很强的科研创新性与实际应用价值。
其他文献
目的随着我国经济发展和居民生活行为模式的转变,恶性肿瘤发病率和死亡率有升高的趋势。了解2011年石河子市肿瘤发病与死亡的流行特征,为肿瘤的预防控制提供科学依据。方法根
通过对国外教师专业标准体系构建的背景、标准框架构建的依据、构建过程中出现的问题与解决办法的系统研究的基础上,作者对我国标准体系构建的国内情形进行了简要分析。最后,
汶川大地震过后,失去家园的人们除了需要树立重新生活的信心,更为迫切的是灾区的恢复和重建工作。随着国家汶川地震灾后重建规划组的成立,灾后重建提上了重要工作日程。在川
<正>我国学者熊川武教授认为:反思性教学是指教学主体借助行动研究不断探索与解决自身和教学目的以及教学工具等方面的问题,将"学会教学"与"学会学习"统一起来,努力提升教学
茶多酚(Tea polypnehenols,TP)是儿茶素、花青素、黄酮与黄酮类和酚酸类等集于茶叶中的多酚复合物的总称。其中儿茶素占60%~80%,分为酯型儿茶素和游离型儿茶素,酯型儿茶素占
目的:评价和探讨牙隐裂直接复合树脂修复的临床效果,为隐裂牙的治疗方法提供参考意见.方法:选择41例于2010~2011年于常州市口腔医院就诊并且行直接复合树脂修复的牙隐裂患者,其
本研究在以桂平市RapidEye卫星影像为例,深入探讨RapidEye卫星影像南方地区水稻种植面积遥感调查的可行性。从RapidEye图像的几何纠正精度、图像合成处理、遥感解译标志和调
以描写山川自然景色为主体的中国山水画,自唐代以来,经历了一千多年的发展历史。到了明、清之际,可以说已经登峰造极。此时的徽州,曾出现了以渐江为代表的一批山水画大家,以其简练
期刊
双丝电弧焊接技术在提高焊接速度和焊丝熔敷率等方面具有突出的优势,在众多行业中已经得到了应用。针对双丝电弧焊接工艺,焊接工作者开发了多种形式的双丝电弧焊接设备,在简