论文部分内容阅读
由于在自动视频监控应用中具有重要作用,行人重识别技术已经在计算机视觉和机器学习领域引起了广泛的研究兴趣。尽管现有的方法已经克服了行人重识别中的一些难题,并取得了较好的重识别效果,在行人匹配过程中依然存在着很多亟待解决的实际问题。(1)度量学习技术在行人重识别任务中是一种非常有效的匹配模型学习技术。现有的基于度量学习的行人重识别方法往往利用负样本中包含的鉴别信息来学习一个鉴别的距离度量。然而,这些方法要么平等地对待不同类型的负样本,要么仅利用少量包含鉴别信息较多的负样本,导致它们无法充分利用包含在所有负样本中的鉴别信息。(2)实际环境中,在摄像头质量较差或行人距离摄像头较远等情况下,拍摄到的行人图像通常分辨率较低,而较低的分辨率通常会造成行人可视化外观信息的损失。由于行人重识别在实现过程中主要依靠行人图像的可视化外观信息,因此,如何降低低分辨率对重识别带来的不利影响是行人重识别中一项非常重要的研究任务。(3)在实际环境中拍摄的行人视频数据中,不仅同一个行人的不同视频之间存在着较大的差异,同一个视频内部往往也存在较大差异,这两种差异都会对行人视频之间的匹配产生影响。然而目前基于视频的行人重识别方法都没有同时处理这两种差异。(4)现有的行人重识别工作主要关注行人图像和行人图像之间的匹配,或者行人视频和行人视频之间的匹配。在很多实际场景中,行人重识别需要在行人图像和行人视频之间进行匹配。然而,现有的行人重识别方法很少研究图像和视频之间的匹配问题。本文针对目前行人匹配过程中存在的以上四个方面的问题进行了研究,并在几种场景下的行人重识别匹配技术方面取得了一些有价值的研究成果:(1)为了更有效地利用包含在负样本中的鉴别信息,提高距离度量匹配模型的性能,本文提出了一种基于负样本区别对待的距离度量学习方法。该方法首先将所有的负样本划分为伪装者样本和良好可分负样本,然后在距离度量学习过程中有区别地利用这两类负样本包含的鉴别信息。具体地,对于伪装者样本,该方法设计了对称三元组约束来确保伪装者样本同时远离其对应的正确匹配样本对中的两个样本;对于良好可分负样本,该方法要求其良好的可分性能够得以保持。在三个公开基准行人图像数据集上的实验表明,该方法学到的距离度量具有更好的鉴别力。(2)为了解决低分辨率情况下的行人重识别问题(我们称之为超分辨率行人重识别),本文提出了一种半耦合低秩鉴别字典学习方法。该方法能够从高、低分辨率图像特征中学习一对字典和一个映射矩阵。利用学到的字典对和映射矩阵,该方法能够将低分辨率Probe图像的特征转换为鉴别的高分辨率特征,从而降低了低分辨率对重识别的影响。为了确保学到的字典对和映射矩阵具有较好的鉴别能力,并使学到的字典可以更好地刻画高低分辨率图像的本质特征空间,该方法在字典学习过程中设计了鉴别项和低秩正则项。此外,考虑到低分辨率对不同类型的可视化特征的影响程度不相同,本文还提出了一种多视图半耦合低秩鉴别字典学习方法,该方法能够为不同类型的特征学习不同的字典对和映射矩阵。在多个行人图像数据集上的实验结果表明了本文提出的方法对于超分辨率行人重识别任务的有效性。(3)为了同时处理视频内差异和视频间差异,提升行人视频匹配模型的性能,本文提出了一种视频内和视频间距离度量联合学习方法。该方法将每个视频看作一个由若干步行周期的时空特征构成的集合,然后从所有视频特征中联合地学习一个视频内距离度量和一个视频间距离度量。在视频内距离度量作用下,视频内的每个样本会向视频中心聚拢。在视频间距离度量的作用下,正确匹配的视频间的距离将会小于错误匹配的视频间的距离。为了提升学到距离度量的鉴别力,该方法设计了一种新的视频关系模型,即视频三元组。在两个公开行人图像序列数据集上的实验结果验证了本文所设计的行人视频匹配模型的有效性。(4)为了解决行人图像和行人视频之间的匹配问题,本文提出了一种基于投影的异质字典对学习方法。该方法同时学习一个投影矩阵和一对异质的图像和视频字典。学到的投影矩阵用来降低视频内部的差异,学到的图像和视频字典对可以将异质的图像和视频特征转换为具有相同维数的编码系数。进而,行人图像和视频之间的匹配可以使用得到的编码系数来实现。此外,为了保证获得的编码系数具有良好的鉴别力,该方法还设计了一个点到集的编码系数鉴别项。在两个公开数据集上的实验结果证明了本文提出的图像和视频匹配模型的有效性。