论文部分内容阅读
随着数字媒体技术、通信技术及网络技术的飞速发展,以视频为代表的数字媒体信息的数量急剧膨胀。短视频是一类内容庞杂的视频数据,如何在海量短视频数据中寻找到有效信息一直是用户关注的问题,由此产生了视频索引、视频检索等相关应用。视频标注就是解决这些应用的核心环节。目前视频标注已成为数字媒体应用和计算机视觉领域中的一个热点研究课题。从语义的角度,视频可以分割成若干种语义单位。不同的语义单位具有不同的语义内涵,在每个语义层次上均可实现语义标注。本文在对视频结构进行深入分析的基础上,对视频片段进行分割,形成不同的语义单位,并在镜头语义层、场景语义层对短视频进行标注。本文的研究成果与创新点主要有:(1)结合视频帧的全局特征和局部特征,提出了一种新的结合视频动态纹理和SIFT特征的镜头边缘检测方法。该方法首先对相邻两帧图像进行均匀分块,在RGB颜色空间下,计算帧中每个图像块的平均梯度。由所有图像块的平均梯度形成视频动态纹理,比较相邻帧图像的动态纹理,并结合相邻帧SIFT特征的匹配情况来判断镜头的变化。该算法对不同类型的视频数据进行镜头边缘检测,均能取得较高的检测准确率。(2)提出一种基于镜头事件的视频语义标注模型。在分析视频结构的基础上,提取镜头中的运动目标和镜头关键帧的背景颜色特征来表达一个镜头的事件,进一步延伸到场景事件的表达,最终由所有事件的集合来作为视频片段的主题。该模型以结合时序上下文的镜头运动对象和环境背景组成的事件组作为标注结果。该标注模型较好地代表了镜头的语义内涵,提高了视频语义表达的准确度。(3)提出一种基于半监督聚类的视频标注新方法。以镜头事件为单位,用事件组来标注视频。为了降低视频标注对已标注样本的依赖,利用半监督学习思想构造半监督K-means聚类算法,优化目标函数,使得最终的聚类结果既体现类间的低耦合及类内的高聚合,又体现类内局部的数据分布密度。该算法实现了诸如视频等多属性异构数据的聚类,提高了视频标注的准确度。(4)提出一种基于上下文的多核学习视频分类新方法。以传统的词袋模型为基础,根据相邻镜头关键帧之间具有相关性的特点提出了一种用于视频场景分类的模型。首先将视频片段进行分割,提取关键帧,对关键帧图像归一化。接着将关键帧图像作为图像块以时序关系合成新图像,提取新图像的SIFT特征及HSV颜色特征,并将图像的SIFT特征及HSV颜色特征数据映射到希尔伯特空间。通过多核学习,选取合适的核函数组对每个图像进行训练,最终得到分类模型,得到较好的分类效果。上述研究成果可广泛应用于视频分类、视频索引、视频检索、视频内容理解、视频数据管理等诸多领域,具有重要的理论意义和较高的应用价值。