论文部分内容阅读
随着互联网技术的高速发展,视频已经成为人们生活中不可或缺的多媒体数据。在满足视频内容的前提下,人们对视频质量的需求不断提高。视频插帧作为一种重要的视频处理技术,有着广泛的应用场景,也越来越受到学术和工业界的重视。视频插帧是指在原有的视频序列中插入一帧或者多帧中间帧。传统基于运动补偿的视频插帧方法通过运动估计和运动补偿插值来合成中间帧,但仍然面临着诸多问题和挑战,尤其是在运动位移过大、遮挡、光照变化等情况下,运动估计的难度会大幅增加。近年来,深度学习方法在视频处理相关领域取得了出色的成绩。研究者们已经提出了基于神经网络的视频插帧方法,并且实现了超越传统方法的效果,但在处理复杂视频序列时仍有较大的提升空间。本文以端到端的视频插帧模型为基础,针对运动位移过大等问题,提出了两种不同的解决方法:基于深度编码解码网络和基于多尺度网络的视频插帧模型。两种方法均以视频序列中的相邻两帧为输入,利用神经网络预测得到帧间的运动信息,并通过空间采样插值生成一帧或多帧中间待插帧,构成端到端的视频插帧模型。其中,基于深度编码解码网络的方法首先利用编码结构提取出帧间的运动特征,再结合解码结构逐步地预测得到光流信息,并通过修正结构对运动信息不连续的区域进行修正,提高预测的准确度。而基于多尺度网络的方法将原有的视频帧降采样到不同的分辨率,从最低尺度的输入开始,利用残差网络预测得到初始的光流信息,接着将其上采样融入到下一尺度的预测网络中,直至最终输出与原始视频帧相同分辨率的光流信息。此外,除了计算预测帧和真实帧之间的像素级误差,我们在训练过程中添加了感知损失,用于进一步提高视频插帧的视觉效果。本文提出的视频插帧方法无需真实的光流信息作为参考,将传统运动补偿方法的两个步骤融为一步,形成了端到端的视频插帧模型。根据实验结果表明,我们提出的两种方法在量化指标上均高于现有的方法。另外,通过观察视频插帧的结果,我们也可以注意到,本文的方法在视觉效果上也明显优于其他方法,在运动位移较大的区域,很少出现模糊重影等现象。