论文部分内容阅读
随着互联网和社交网络的发展,图像与视频这种多媒体格式充斥了整个网络,这主要是由于其相对于文本有着更大的信息量与更生动的呈现方式。越来越多的用户在网络上通过图像视频分享他们的日常生活,旅行经历。通常,用户在素材拍摄与编辑过程中上花费了大量的时间精力于一些枯燥重复的工作,如调整曝光,图像裁剪,视频截取,后期特效等。因此,如何利用人工智能技术辅助用户拍摄与编辑图像视频,将用户从枯燥乏味的操作中解脱出来的研究工作亟待展开。本文立足与此,应用现今机器学习领域最领先的深度学习技术,对图像视频拍摄与编辑过程中的相关问题展开研究,提出了具有创新性的解决方案,并在实际场景中对其有效性进行了验证。具体的,本文选取了图像视频拍摄与编辑领域中三个有代表性的问题——图像视频拍摄过程中的曝光控制问题,图像编辑过程中的图像补全与目标移除问题和视频编辑过程中的精彩片段检测问题。本文通过分析上述问题中存在的难点,结合被广泛应用于计算机视觉与计算机图形学领域的深度学习技术,强化学习技术,生成对抗训练技术以及非监督学习技术,针对不同问题分别提出了系统级的解决方案,具有极强的现实意义与实用价值。首先,针对图像视频拍摄过程中的曝光控制问题,相对于传统的点测光,中心测光和矩阵测光算法,本文提出了包含注意力分支与曝光分支的两路网络结构,分别控制局部区域的曝光重要程度与曝光调整值。通过上述网络结构,系统可以更平滑的对场景中的曝光参照物进行预测与控制,大大提升了系统的曝光能力。上述系统还在公开数据集上进行了进一步的验证,取得了非常优秀的结果。其次,针对上述提出的曝光控制系统,通过进一步对用户数据进行分析研究,发现了曝光控制问题中的个性化需求。针对上述需求,本文提出了基于深度强化学习的个性化曝光控制系统。通过系统中深度强化学习技术的应用,克服了模型训练过程中数据标签收集困难的问题,大大简化了系统的训练过程,在使用有限数据标签进行训练的情况下取得了接近监督学习的结果。上述曝光控制系统为用户拍摄图像与视频提供了极大的便捷。通过拍摄得到的优秀多媒体素材更是为之后的编辑工作打下了坚实的基础。在上述基础之上,针对图像编辑过程中的图像补全与目标移除问题,本文提出了基于平滑部分卷积与自适应特征融合技术的图像补全系统。通过平滑部分卷积,对图像中的缺失区域按照对应的掩膜由外到内依次补全,并通过编解码结构中的自适应特征融合技术将不同层次的特征进行融合,最终得到补全后的图像。特别的,该技术可被进一步应用于图像编辑过程中的重要问题之一——目标移除问题,通过自定义掩膜对场景中多余的目标进行移除。该系统不仅在现有的公开数据集上进行了验证,取得了行业领先水平,还进一步在实际场景中进行测试,取得了优秀的结果。最后,针对视频编辑过程中的精彩片段检测问题,本文提出了基于自动编码器的非监督学习系统。该系统分析了实际应用中的困难点,克服了数据标注收集困难的问题,提出了基于非监督学习的方法,通过网络爬虫简单高效的对系统训练数据进行扩充,将训练数据的规模轻松提升了一个量级。在上述基础之上,针对视频特征编码问题,提出了基于3D卷积和长短时记忆单元相结合的特征编码方式,分别从不同粒度对视频帧之间的依赖关系进行编码,在大规模数据集上取得了优秀结果。特别的,本文提出的系统还在公开数据集上与现有的监督学习方法进行了对比,在部分类别上取得了相接近的结果。综上,本文工作成功的将深度学习技术应用于图像视频拍摄与编辑领域,针对其中不同问题提出了创新有效的解决方案。所提出的系统还在实际场景中进行了测试,取得了普遍领先行业水平的结果,具有很强的科研创新性与实际应用价值。