论文部分内容阅读
图像检索是计算机视觉领域中具有重大价值的课题,自动图像标注是图像检索和图像理解的关键步骤,行人重识别是图像检索在真实行人场景中的具体应用。本文对自动图像标注和行人重识别分别进行研究,针对训练深层网络容易出现过拟合、传统标注模型结构繁琐、真实场景行人重识别研究较少等问题,在数据增强、标注框架、实际应用等方面提出解决方法,本文的主要工作包括:(1)针对深层神经网络难以训练小规模数据集、传统数据增强方法难以大量扩充多标签数据集等问题,在部分传统数据增强方法的基础上,提出了基于Wasserstein生成对抗网络的多标签数据增强方法(ML-WGAN),该方法通过训练使WGAN的生成器逐渐逼近单张多标签图像的数据分布,将迭代过程中生成的图像作为原图数据的补充,该方法能够方便大量地扩充多标签数据集,减少训练深层神经网络的过拟合问题,从数据本身提升图像识别、标注模型的泛化能力。(2)针对传统浅层模型泛化能力弱、传统标注模型将特征提取与分类标注视为两个独立任务进行研究而导致的结构繁琐等问题,提出了基于端到端深层卷积神经网络(E2E-DCNN)结构的自动图像标注模型,该模型首先将图像标注转换成多标签分类问题,使用ResNet等深层CNN结构进行自适应特征学习,然后配合多重交叉熵损失函数建立端到端标注结构进行训练,最后通过对深层CNN的结构优化和结合深度学习数据增强方法提升标注效果,该模型只使用单个深层CNN结构就能完成自动多标签图像标注任务,同时有效地改善标注效果。(3)针对目前行人图像检索在真实场景应用中的研究较少,提出了基于数据增强的Faster-RCNN行人重识别方法,该方法将深度学习数据增强和改进的CNN目标检测结构(Faster-RCNN)等技术相融合,首先通过深层CNN预训练模型提取真实场景下的行人位置,然后使用非参数化的损失函数计算目标行人的距离度量,该方法将行人检测和行人重识别整合到单个端到端框架,同时能够有效地优化行人重识别效果。通过在图像标注公共数据集、行人重识别公共数据集和真实场景数据集上的实验结果表明,本文提出的方法有效减少了模型训练中的过拟合问题,提升了中低频标签的标注效果和真实场景下的行人重识别效果。综上,本文提出的方法在自动图像标注方面能较好地提升整个模型的召回率,在行人重识别方面能提升在真实场景下的行人重识别效果。