基于时空不相似度的视频显著性模型研究

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:good2009good
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据生理学和心理学的知识,人类视觉系统倾向于注视那些最能刺激神经系统的视觉信号。在图像或视频中,这些视觉信号所在的区域是图像中的显著目标或视频中的运动目标。视觉注意分析模型就是通过自动生成图像或视频的显著图,模拟了人类视觉系统的这种行为。而且,视觉注意分析模型可以广泛应用于多媒体信息描述、目标检测、目标分类、行为分析、多媒体信息网络传输控制等领域。本文的具体研究工作如下所示:首先,本文回顾了视觉注意的生理机制,然后分别回顾了自底向上的显著性模型、自顶向下的显著性模型、视频显著性和图像显著性的联系和区别以及视频显著性模型的研究现状,同时还介绍了视觉注意模型的一些应用,包括图像压缩、机器人控制等。然后,本文根据人类视觉系统中视觉注意的生理机制以及心理学依据,分析并得到了人们在观看视频时影响人眼注视的四个因素,包括外观不相似度、空间位置不相似度、优先级不相似度即中央偏置以及运动特征。其中,前三个因素是空域特征,第四个因素是时域特征。其次,本文提出了一种基于时域和空域信息的视频显著性模型,该模型建立在上述四个关键因素基础上。根据视频显著性与图像显著性的区别,当人们在观看视频时,人类更加关注与其他运动目标速度差异最大的目标,因此我们可以根据人类生理学、心理学速度感知模型,建立一个速度感知显著性计算模型,用于提取运动特征。在得到的空域特征和时域特征后,本文根据建立的时空显著性融合计算模型,对空域特征和时域特征进行融合,得到了最终的时空显著图。此后,本文在多个视频片段库上进行了测试。通过与现有的国际知名注意模型相比,实验结果表明本文中模型预测的视点与人类真实视点更一致。最后,根据视觉信号在人眼中编码的生理依据,本文在上述显著性模型的框架的基础上,提出了一种基于稀疏表示的视频显著性模型。同时,对于视频数据量较大的特点,此模型采用了视频分割技术以及关键帧提取技术去训练字典,从而减少了字典训练的时间。通过与其他方法比较,基于稀疏表示的视频显著性模型在人眼注视预测中展示了更高的准确性。
其他文献
目前,网站普遍存在着不少可用性问题,给人们浏览网站带来了很多困难。要发现网站存在的可用性问题并加以有效的克服,就需要对网站进行可用性分析。目前,网站可用性分析的一种主要
图像分割是指将一幅图像划分成若干互不重叠的、有意义的和具有相同性质的区域,它是图像处理和模式识别的关键环节。在众多图像分割算法中,模糊C均值算法(Fuzzy C-Means,简称