论文部分内容阅读
社会的发展,尤其是数字化信息和移动互联网的普及,为计算机视觉提供了大量的数据和应用场景。然而,即使目前最先进的计算机视觉系统也仍然在很多任务下和人类视觉系统相差甚远;与此同时,很多现有的计算机视觉方法专注面过于狭隘,没有考虑到数据之间的联系及其和环境的相互关系,因而容易犯一些低级错误。 本文详细挖掘了计算机视觉中的环境约束信息,着重研究了深度信息约束、拓扑结构约束和时空一致性约束,本文的研究内容和主要创新点如下: 1、提出了一种基于深度信息约束的图像分类模型。该方法构建在传统的词包模型基础之上,首先利用马尔可夫随机场估计图像像素的深度信息,再将此深度信息嵌入到图像特征中。在共聚集的过程中,我们将图像特征投影到在深度方向上临近的两个深度平面上,从而使得原来在特征空间无法区分的特征得以在深度空间被正确地分类。所提方法在图像分类,尤其是场景图像分类任务中,表现要优于传统的词包模型和时下一些最新的方法。 2、提出了一种基于拓扑结构约束的步态识别模型。拓扑结构是形状类数据的固有属性,对于步态数据来说,无论行走姿态和视角如何变化,其拓扑结构都未曾发生改变,这就是拓扑不变性的优良特性。与此同时,拓扑不变性缺乏足够的判别力,我们无法利用拓扑不变性来区分结构相似而类别不同的物体。有鉴于此,我们利用持续同调理论在多分辨率和多视角下追踪步态的局部拓扑结构变化,增强了拓扑不变性的表达力,使其适用于计算机视觉的识别任务。实验表明,在跨视角、跨姿态的情况下,该拓扑特征的性能要远远超过传统的步态特征。 3、提出了一种基于时空一致性约束的行人再识别方法。目前的行人再识别研究主要集中在特征学习和度量学习两方面,大部分之前的工作只专注于其中一项;在本文中,我们利用深度神经网络将特征学习和度量学习统一在一个框架下,进行端到端的训练和推理。在特征学习阶段,我们利用基于时序的注意模型来自动挑出具有判别力的帧,使其在特征学习阶段具有很大的权重;在度量学习阶段,我们首先逐位置计算一对视频的相似度,然后利用基于空间的循环神经网络来考虑空间上下文的信息,使得相似性度量具有空间一致性。