论文部分内容阅读
运动目标检测是计算机视觉研究中非常重要的一部分,它的目的是将用户感兴趣的运动目标准确、完整地从视频序列中提取出来。运动目标检测一直以来广受计算机视觉研究领域的关注,主要有两方面的原因。一是作为视觉研究的中层部分,运动目标检测为目标跟踪、目标分类和行为理解等更高层次的处理提供了基础,被广泛的应用于智能视频监控等领域。二是运动目标检测是计算机视觉里非常具有挑战性的一个任务。现实环境中,复杂的背景、动态噪声或者非用户感兴趣的“无效运动”、雨雪天气等给运动目标检测带来了极大的干扰。如何排除这些干扰,实现运动目标的鲁棒、快速的检测,一直是研究者们致力解决的问题。尽管经过几十年的研究,大量的运动目标检测算法被提出,但是如何准确描述场景并能快速适应场景的动态变化至今仍是尚未解决的难题。为此,本文研究了一种背景模型自适应学习的方法,该方法通过自动分析和学习场景的复杂性来不断优化背景模型,在此基础上实现了视频中运动目标的提取,并利用基于超像素的融合方法来优化目标区域。本文的主要工作如下:(1)研究了连续图像序列中动态噪声的变化特性,提出了场景动态属性的度量方法。该方法利用连续视频帧间的时空关系有效地提取出了背景动态噪声区域,并将其量化为动态噪声的度量,这使本文的方法能够有效的区分前景运动目标和背景动态噪声,为后续进一步实现背景模型的自适应变化提供重要的依据。(2)提出了一种能够自适应环境变化的运动目标检测方法。从像素级背景建模出发,通过度量场景的复杂程度并结合(1)中的动态属性分析,实现了一种背景模型自适应各种复杂的环境变化的方法。该方法有两个优点:一是能够动态调节关键模型参数而不需要人为干预,这不同于传统方法将模型的重要参数设置为常数或通过人工调节。二是基于像素级的算法设计简单高效,使得我们的方法能够实时检测视频里的运动目标。在公共数据集CDnet2014上的实验表明,该方法对不同类的视频具有很好的鲁棒性,平均检测准确性(F-Measure)接近目前最优秀的算法,并且达到23帧/秒的处理速度。(3)提出了一种基于超像素融合技术的运动目标区域优化方法,利用同一目标的相邻超像素具有相似性的先验知识,对我们在(2)中得到的目标区域进行优化,从而使运动目标区域更加完整。实验表明,经过该方法的优化,对部分类别视频的运动目标检测性能得到了显著提升。在实时性要求不高的任务中,该方法提供了一种获取更精确的目标区域的途径。