论文部分内容阅读
视频目标提取是多媒体数据处理中一项基础但至关重要的技术,往往使用用户在视频帧上的标记并作为视频目标的先验信息,提取出所有视频帧中的视频目标,并确保不同视频帧上的视频目标在时空上的相关性。提取出的视频目标常用于影视后期制作,三维建模,智能监控等领域。然而,现有视频目标提取方法在对具有复杂内容(视频中包含颜色相近似的视频目标和背景区域、视频目标边界模糊、光照变化和阴影等)的自然视频片段进行提取时,提取结果中往往出现视频目标残缺、丢失等不理想的情况。另一方面,用户对视频目标提取方法在提取效率上的要求日益增加,而现有视频目标提取方法的运算效率较低。针对视频目标提取方法在提取质量与提取效率的问题,本文围绕视频预处理和对于视频目标的特征度量机制两个方面进行深入的研究,并针对视频目标提取方法目前存在的局限性,提出了一种基于梯度约束SLIC的快速视频目标提取方法。在关键视频帧上允许提供少量用户交互下,该提取方法能够快速并精确提取复杂视频片段中的视频目标对象。本文提出的方法在组织结构上分为以下三点:(1)视频预处理方面,本文方法首先对现有视频预处理方法进行分析,从中选取最适用的方法,并且针对该方法存在的局限性进行相应改进。然后,本文采取改进后的预处理方法对所有视频帧进行预处理,将每一视频帧划分为若干独立且不连通的子块区域。(2)三维无向图的构建方面,本文充分度量子块区域之间在时空域上的相关性,确定子块区域之间的连通关系,并构建以子块区域为结点的三维无向图,同时构建对应的能量函数。(3)特征度量方面,本文根据不同子块区域之间在时空域上的连通关系,选取对应的特征度量公式,通过融合外观特征(颜色特征与纹理特征)与运动特征,建立一个鲁棒的多特征相似性度量机制,实现对复杂视频片段的高质量视频目标提取。另一方面,为确保提取结果中视频目标的时空一致性。本文在能量函数中引入高阶项,通过调整运动特征在整个特征度量中的比重,从而改善提取结果的质量。实验结果表明,本文方法在处理包含复杂场景的高清视频片段时也能取得理想的视频目标提取结果,且在时间效率上相对于现有视频目标提取方法有着明显提高。