论文部分内容阅读
随着多媒体和互联网技术的迅速发展,视频作为获取信息资源的主要形式之一,给我们带来了视觉和听觉的享受。但是,快速地从海量的视频中找到有效的信息并不是易事,因为视频不同于其它数据信息,具有数据量大,结构复杂,内容丰富的特点。基于内容的视频检索方法是通过计算机对多媒体数据中包含的内容进行分析与理解,提取视频中的颜色、形状和纹理等视觉特征作为索引,以方便用户进行查询,确保能够快速地检索到有效的多媒体内容。基于内容的检索通常先对视频进行镜头检测,把视频分割成若干个镜头。每个镜头中的图像帧含有很大的冗余信息。所以,通过对每个镜头提取能够代表镜头内容的关键帧,可以解决这个问题。利用关键帧序列来代表视频内容的变化,以此来代替相应的视频,这样,不但减少了需要处理的数据,而且大大提高了检索的效率。关键帧提取是将视频转化为图像的重要方法。目前关键帧的提取已经有很多算法,有基于镜头边界、运动分析或者聚类等方法。这些方法都是需要先进行镜头分割,然后通过分析图像帧的颜色、形状、纹理等特征,还有各帧之间的相互关系,找到代表视频信息的关键帧。但是提取的关键帧有时候并不一定能代表视频的有效内容,这样就使接下来的视频检索处理产生了前期的误差。因此,关键帧如何能够在最大程度上代表视频的主要内容,而且又可以适用在不同的视频上,是具有重要学术意义和实用价值的。视频特征提取是关键帧提取的首要步骤,特征向量提取的好坏直接影响着关键帧描述镜头的效果。本论文从视频、图像两个层次介绍了视频信息的特征,并对颜色、形状、纹理和运动特征提取方法进行了详细地说明,通过数学公式对这些特征进行了量化描述。基于聚类的方法能够有效地消除镜头问的相关性,但是不能保存原镜头内图像帧的时间顺序和动态信息。基于视觉内容分析的方法对于运动较多的镜头不能充分地描述视频内容。为了兼顾时序性和自适应性,本论文提出了一种基于子镜头的自适应关键帧提取的新算法。此方法是利用样本的距离可分性准则提出子镜头分割函数,通过寻找函数极大值将镜头分割为若干子镜头。这样不仅可以保持了视频的时序性,又避免了阈值法分割准确性差的不足。然后,根据每个子镜头内本身的内容变化,自适应地确定每个子镜头的关键帧个数,解决了现有算法提取的关键帧数目不理想的问题。该方法首先对视频镜头从子镜头、图像帧两个层次进行分析。从镜头中检测出子镜头,自适应提取关键帧,使用户能根据少量的可视化数据对视频有快速的了解。本方法能够根据视频自身的复杂度,提取准确率较高的关键帧,在实验过程中,利用保真度和压缩率来衡量改进方法的性能,并且定义了新的镜头重构度作为评价指标,将本论文的方法与传统算法进行了比较。实验结果表明,本论文提出的关键帧提取方法能有效地表达镜头的主要内容,保持了镜头的时序性,并具有良好的鲁棒性。