论文部分内容阅读
作为多媒体家族中一个十分特殊的成员,视频本质上融合了图像、语音、文本、动画等多种类型的媒体数据,成为多媒体信息检索研究的难点。随着研究的不断深入,建立了现代视频检索和内容查询的一个基本框架。这是在现代多媒体研究方面的一篇经典文章,也是在此领域中人们引用最为广泛的文章之一。框架的基本思想是:不需要完全明白视频的内容,只需分析视频的结构,再把每一个镜头当作段落,将关键帧当作关键字,从而形成一套全新的多媒体检索和查询的方法。
基于内容的多媒体检索技术的日益成熟不仅将创造出巨大的社会价值,而且将对人类生活的改善发挥重要作用。
本文以基于内容的视频处理和检索技术为研究目标,以视频内容的结构化分析为主线,结合自己的研究工作,重点介绍视频中镜头分割(或称镜头边界检测)、场景分割(或称场景边界检测)、节目分割(或称节目边界检测)、以及关键帧提取和相似度计算等关键技术。
论文第一章着重介绍视频检索研究的发展现状,同时简要介绍几个具有代表性的视频检索系统模型。随后从现代视频检索研究的一大核心课题——视频结构化分析角度出发,罗列视频结构化分析研究中的若干关键技术。第二章在总结前人在镜头分割方面所作贡献的基础上,着重介绍我们在镜头分割方面所作的工作。第三章介绍当前几种常用的关键帧抽取方法以及关键帧的特征提取和相似度计算方法,并重点介绍MPEG-7标准定义的图像视觉特征描述子。第四章首先针对新闻、电影这两类特殊视频分别介绍了几种典型的场景分割算法,随后详细描述了我所在研究小组提出的一种通过自动分类学习检测播音员镜头的算法,其检测结果可用于新闻视频的场景分割中。第五章首先将传统的视频层次结构进行扩充,针对电视视频流,在场景和视频层次间加入节目层(Program),并随后提出一种针对特定电视频道的电视节目自动分割算法。第六章,总结全文并展望未来的工作。