论文部分内容阅读
随着视频监控的大规模应用和数据存储技术的发展,大量监控摄像头出现在各种公共场所,监督人们的行为,并保证人们的安全。但是,随之而来的海量视频数据已经远远超出了传统人工视频监控的处理能力,视频分析技术急需智能化和自动化。行人匹配是视频分析领域最重要的研究方向之一,主要解决非重叠摄像头下的行人再识别问题,也就是判断在一个摄像头下出现的行人在另一个摄像头下是否再次出现。多摄像头下的行人匹配主要有两个研究方向:特征表示和度量学习。行人匹配方法普遍需要很多人工干预,根据经验和大量理论知识来选择最有效最鲁棒的特征组合;而且大多数特征都是直接从图像提取,最多将图像水平分块,忽略了人体本身的特性;此外,大多数有监督的学习方式需要大量已标记的训练样本,这给行人匹配的实际应用带来很大阻碍。为了解决现有的行人匹配算法存在的问题,本文针对特征表示提出了两种行人匹配算法,主要内容如下:1.针对局部特征的互补性和人体本身的结构特性,本文提出基于人体结构和特征融合的行人匹配算法。该方法先是利用定制图形结构(Custom Pictorial Structure,CPS)进行人体每个部位的检测,接着,提取每一个部位的融合特征,然后合成行人的最终人体结构特征,融合特征包括多种颜色和纹理特征,如RGB、HSV、Gabor等等。最后,将得到的人体结构特征输入相对距离比较(Relative Distance Comparison,RDC)分类器进行训练,并完成测试集的实验。实验使用的数据集包括VIPe R、i-LIDS和CUHK01这三个行人匹配公开数据集,各自涵盖了需要测试的方面,比如视角、光照、遮挡等等问题。该算法中人体结构的细分加强了特征的描述能力,并且将人体自身的特性考虑在内,还能有效去除背景干扰;多种颜色纹理特征的融合利用了局部特征的互补性质增强特征的鲁棒性,在三个数据集上都有不错的测试结果,Rank-20的识别率分别达到92.41%,97.01%和94.45%。2.针对深度学习算法在行人匹配领域的优秀表现,本文提出基于强化深度特征融合的行人匹配算法进一步优化特征表示。该算法结合了前一个算法中的基于人体结构检测的融合特征,以及卷积神经网络(Convolutional Neural Network,CNN)特征和局部最大概率(Local Maximal Occurrence,LOMO)特征,提出一种强化的深度特征。该算法分为两个部分,第一个部分是将CNN看做特征提取器得到深度特征;第二个部分是提取人体结构特征。然后,在CNN中将二者进行融合,再串联LOMO特征得到最终的强化深度特征。最后,使用Mirror KMFA进一步增强特征,并进行度量学习。该算法利用深度神经网络的反向传播,使得基于人体结构检测的融合特征可以动态地影响卷积层的参数,从而影响卷积层提取的深度特征。LOMO特征的加入也使得视角变化最剧烈的VIPe R数据集的识别率有较大提升,再加上CNN中的Max Pooling层也可以在一定程度上对视角变化有一定鲁棒性,进一步提升了行人匹配的识别率。在三个数据集VIPe R、i-LIDS和CUHK01上都取得了较好的实验结果,Rank-20的识别率分别高达97.17%,98.77%和96.40%。