论文部分内容阅读
目前,图像和视频已经越来越成为多媒体的主要表现形式,如何有效地从大规模的图像视频数据中定位用户真正需要的图像块,已经成为了图像和视频处理领域比较热门的问题,感兴趣区域提取正是解决这一问题的关键技术。感兴趣区域是图像中最能引起用户兴趣,最能表现图像内容的区域。感兴趣区域提取技术在图像处理和分析领域有着重要的地位和广泛的应用,如JPEG2000压缩编码、机器视觉中目标区域定位与识别、视频信息中字幕和标识的自动提取与识别、医学图像分析等。人类的视觉系统(HVS)能够快速而准确地将注意力集中在图像、视频中少数几个显著的视觉对象上,这些对象被称为感兴趣区域(Region of Interesting,简称ROI),这个过程被称为视觉注意。这些区域往往具有与周围环境显著的亮度、纹理、颜色、形状和运动等差异的特性。基于此已经提出了较多的视觉注意模型,最具代表性的如Itti和Koch提出的ROI提取算法。该算法首先对图像提取亮度、颜色和方向等特征变成特征图,然后对每个特征图用类似于感受野的“中心-环绕(Center-Surround)"机制,最后综合各特征融合得到图像的显著图。近年来,随着三维立体显示技术突飞猛进地发展,越来越多的3D元素融入到了日常生活之中。与以往2D平面的显示方式相比,立体显示技术往往能给观看者带来更高质量的视觉体验和栩栩如生的视觉感受,也因此备受人们喜爱。由于增加了深度信息,传统基于2D图像的感兴趣区域提取方法并不能非常好地预测立体视频中的显著区域。本文较深入地研究了人眼视觉注意机制,采用自底向上的方法,在结合传统2D和视频序列运动显著特征的基础上,综合考虑了立体视频的深度信息,将人类视觉系统对深度的感知特性引入到感兴趣区域提取当中,提出了一个立体视频的视觉注意模型。本文的另一个创新点是采用人工神经网络进行显著特征的融合。在以往的视觉注意模型中,常常将提取的显著性特征做简单地线性组合得到最终的显著图,如此提取的ROI有时会和人眼真实注意的区域产生较大的偏差。本文通过网上提供的眼动仪数据以及自己实验标记得到的“真实数据”作为神经网络的输入样本,训练更加符合人类视觉系统的先验模型,更好地将诸多显著特征融合为最终的显著图。然后在显著图的基础上定位感兴趣区域,如此提取得到的区域在时间轴上存在位置和大小的跳动,本文采用卡尔曼滤波器在时间域上做优化,使得最终检测出的感兴趣区域能够精确而稳定地定位。实验结果表明,本文提出的立体视频视觉注意模型能够较好地预测立体视频图像中感兴趣区域,并能够使得提取的区域在时间域上稳定可靠。