论文部分内容阅读
随着社会经济以及计算机技术的发展,人们的安全意识也不断加强,大量的监控摄像头被安装在各大场所,用于记录妨碍公共安全的突发性紧急事件,作为后续追踪的判定依据。但是,数以万计的监控设备不停运转,产生了海量的监控视频数据。如果只采用传统的快进快退的方式来查找海量视频数据里的关键事件就如同大海捞针,既费时耗力又可能遗漏重要信息。因此,如何有效提取监控视频的视频摘要,收缩原始视频时长的同时精确提取原始视频的重点内容,成为亟待解决的难题。针对单目静止摄像机近距离室内监控的情形,本文研究了基于运动人体检测的监控视频摘要技术。从运动目标提取、运动目标判定、镜头检测到关键帧提取等方面研究并生成内容精悍且能表达监控视频主要内容的静态视频摘要。本论文主要研究内容为运动人体检测和监控视频镜头检测,主要做了以下工作:(1)从运动区域的底层特征出发,结合HOG特征和LBP特征并通过PCA降维的方法改进了传统的基于HOG特征的人体检测方法。与传统的基于HOG特征的人体检测方法不同,本文人体检测方法是针对视频中的运动人体进行的,先把运动目标使用帧差与背景差相结合的方法提取出来,再对运动目标判定,减少了人体检测的扫描范围。此方法降低了传统的基于HOG特征的人体检测部分遮挡问题以及耗时问题,提高了人体检测的准确性以及实时性。(2)结合运动目标外接矩形的长宽比以及肤色分布,提出一种单个运动人体检测方法。使用帧差与背景差相结合的方法进行运动目标提取,根据运动目标外接矩形的长宽比把运动目标分为疑似单人体目标及其他目标。对于疑似单人体目标根据肤色分布判定是否为人体,如果不符合人体肤色分布的疑似单人体以及其他目标使用(1)中的方法进行人体判定。在保证准确性的前提下,此方法降低了人体检测的复杂度。(3)把SVM和HSV空间上的分块直方图引入到基于交互信息量的视频摘要技术中。首先,视频帧用HSV空间模型表示,并把视频帧分隔成不均等的M*N子块,统计各子块直方图特征值,根据各子块不同权值对各子块进行加权平均;接着,根据相邻帧间的交互信息量形成一个特征集,用SVM进行训练分类,实现镜头分割,克服传统的利用交互信息量进行镜头分割时人工设置阈值的缺陷;最后,对于镜头内的视频帧,根据信息熵大小求取能代表此镜头的关键帧,并结合交互信息量去除冗余帧。根据(1)、(2)提取含有人体目标的视频帧,结合分块直方图、交互信息量和SVM生成含有人物对象的视频摘要。该算法提取的视频摘要能够很好表达原视频内容,而且无需人工干预。