基于深度学习的视频插帧技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhuqs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,视频已经成为人们生活中不可或缺的多媒体数据。在满足视频内容的前提下,人们对视频质量的需求不断提高。视频插帧作为一种重要的视频处理技术,有着广泛的应用场景,也越来越受到学术和工业界的重视。视频插帧是指在原有的视频序列中插入一帧或者多帧中间帧。传统基于运动补偿的视频插帧方法通过运动估计和运动补偿插值来合成中间帧,但仍然面临着诸多问题和挑战,尤其是在运动位移过大、遮挡、光照变化等情况下,运动估计的难度会大幅增加。近年来,深度学习方法在视频处理相关领域取得了出色的成绩。研究者们已经提出了基于神经网络的视频插帧方法,并且实现了超越传统方法的效果,但在处理复杂视频序列时仍有较大的提升空间。本文以端到端的视频插帧模型为基础,针对运动位移过大等问题,提出了两种不同的解决方法:基于深度编码解码网络和基于多尺度网络的视频插帧模型。两种方法均以视频序列中的相邻两帧为输入,利用神经网络预测得到帧间的运动信息,并通过空间采样插值生成一帧或多帧中间待插帧,构成端到端的视频插帧模型。其中,基于深度编码解码网络的方法首先利用编码结构提取出帧间的运动特征,再结合解码结构逐步地预测得到光流信息,并通过修正结构对运动信息不连续的区域进行修正,提高预测的准确度。而基于多尺度网络的方法将原有的视频帧降采样到不同的分辨率,从最低尺度的输入开始,利用残差网络预测得到初始的光流信息,接着将其上采样融入到下一尺度的预测网络中,直至最终输出与原始视频帧相同分辨率的光流信息。此外,除了计算预测帧和真实帧之间的像素级误差,我们在训练过程中添加了感知损失,用于进一步提高视频插帧的视觉效果。本文提出的视频插帧方法无需真实的光流信息作为参考,将传统运动补偿方法的两个步骤融为一步,形成了端到端的视频插帧模型。根据实验结果表明,我们提出的两种方法在量化指标上均高于现有的方法。另外,通过观察视频插帧的结果,我们也可以注意到,本文的方法在视觉效果上也明显优于其他方法,在运动位移较大的区域,很少出现模糊重影等现象。
其他文献
<正>目的癌相关的炎症被认为是"肿瘤的第七大特征"。近年来,研究发现炎症与癌症发生直接相关。炎性细胞及细胞因子的存在可促进肿瘤发展,而针对炎症介质、炎性细胞的靶向抑制
会议
<正>分散聚合法是合成微米级单分散性聚苯乙烯微球的有效方法,但是用该法合成出来的微球粒径通常在2μm左右[1]。本文研究分散聚合法合成更大粒径的聚苯乙烯微球。通过在反
《征收条例》在文本意义上实现了产权保护水平的提高,实现了从"责任规则"到"产权规则"的转变,但是产权规则的实现与政府的行为选择密切相关。因此保护水平的提高,不仅要有文
针对某重型汽车螺旋凹槽式制动鼓存在较大振动问题,结合CATIA和ANSYS作为螺旋凹槽式制动鼓的模型构建与有限元分析工具,对制动鼓进行模态分析,研究螺旋凹槽式制动鼓的振动特
高等工程教育是工程科技人才培养的主通道,工程技术人才的素质直接决定了国家的工业竞争力和国民经济水平。2016年,我国正式加入国际工程教育《华盛顿协议》组织,标志着工程
根据现代生产工艺的特点,结合AGV自动导引小车的路径规划技术,建立了带有时间窗约束的路径规划模型。文中针对到达时间窗约束,对超出时间窗到达的AGV给予一定的成本惩罚,采用
心理健康对小学生来说非常重要,当代中小学生是跨世纪的一代,他们正处身心迅速发展、个性特征易于塑造的关键时期。影响小学生心理健康的因素很多,但主要有小学生自身、家庭
最近几年,服装领域电子商务蓬勃发展,互联网上的服装图像数据量与日俱增。为了处理海量的服装图像数据,有效的基于内容的服装图像检索变得异常重要。散列方法,即以二进制码表