论文部分内容阅读
随着多媒体技术的发展,多媒体的载体形式已从最初的文字到图像再到视频的转变。面对海量的视频信息,如何对其进行有效的分析和检索成为了一个巨大的挑战。目前,基于内容的视频检索技术发展已取得较大的成就,相比传统基于文字的视频检索技术性能有了很大的提高。基于内容的视频检索技术一般采用关键帧或镜头帧的底层视觉特征对视频内容进行表达,通过计算查询图像特征和关键帧特征的相似度来确定视频检索的结果。在实际的视频检索中,用户最终的需求是能够直接检索视频中的对象,所以基于对象的视频检索是未来发展的趋势。本文对基于对象的视频内容检索技术进行研究,其主要包含视频中对象提取的研究和基于对象的图像检索研究。视频中提取对象的目的是为了建立视频的对象库信息,为后续的对象检索提供检索数据。视频中对象检测的方法可分为运动目标检测和静态图像目标检测两类,运动目标检测方法对图像中长时间保持静止的目标会丢失检测信息,将其误判断为背景,静态图像目标检测方法由于运动模糊,物体面积过小问题,会漏检一部分的目标信息。为解决以上问题,本文将两种方法融合,完成视频对象提取任务,并通过实验分析,融合后能提升视频中对象的检测率。在建立视频的对象库后,下一步的研究为基于对象的图像检索问题。图像检索任务即通过给定查询图片与图像库中的图片做相似度分析,找出相似的图像。图像检索包括图像特征提取和相似度度量。图像特征提取的好坏很大程度上决定了后续检索的效果,基于深度学习的图像识别研究在近几年取得了较大的成果,但在图像检索领域的研究工作较少,为改善传统手工设计的特征在图像检索任务上的效果。本文基于深度卷积神经网络对图像提取特征,并加以辅助网络,融合多个卷积层的特征作为图像的特征,并通过实验分析,本文提取的特征相对于原始深度卷积神经网络提取的特征和传统特征在图像检索任务上的性能更好。最后,基于上述的研究,设计和实现了一个基于对象的视频检索系统,可为用户提供基本的视频检索服务。