论文部分内容阅读
伴随着社交网络和用户自创内容的快速发展,目前互联网已经积累了海量图像数据,标志人们已经进入“读图时代”。如何满足人们准确、实时的图像检索需求,已成为亟待解决的现实问题。传统的图像检索方法因其人工标记数据、关键字匹配等局限性,难以应用于大规模图像检索。深度神经网络以其优越的多层结构和强大的特征提取能力,在抽取图像内容方面表现优异,在一定程度上缓解从图像底层视觉信息到人类认知语义之间存在的“语义鸿沟”(Semantic Gap)问题。为了进一步细化检索内容、提高检索精度,减少图像背景因素的影响,图像实例级别的检索成为当前研究热点。本文研究基于深度学习的图像检索,并结合图像目标检测方法,用于提取图像全局特征以及表示物体的局部特征。同时,提出了一种基于Wasserstein距离的卷积自编码器模型(Wasserstein Convolutional Auto-Encoder,WCAE),用于图像特征的降维。本文的创新点和主要内容如下:(1)使用目标检测框架Faster-RCNN提取图像的全局特征和表示物体的局部特征,用于图像实例级别的检索。为了提高特征抽取的准确性,本文使用检索图像数据对特征提取网络进行权重微调。此外,在图像重排阶段,综合考虑物体类别得分和特征相似度两个因素,提出一种基于有效区域的空间重排方法(Valid Region Spatial Re-rank,VR-SR),以提高图像实例级别检索的准确性;(2)本文提出一种基于Wasserstein距离的卷积自编码器模型,用于对图像特征的降维过程。WCAE是一种非线性降维模型,可压缩数据并获得低维编码,同时确保信息不会丢失。由于引入卷积层,使得WCAE在处理二维信号优势明显。此外,本文使用区域最大池化(Region Max-Pooling,RMP)方法处理特征,以满足WCAE固定输入尺寸的要求。综上,WCAE是一种通用的降维方法,采用无监督的方式训练,不依赖有标记信息的数据,具有良好的应用前景;(3)通过融合Faster-RCNN特征提取模块以及WCAE特征降维模块,本文实现了一个精准且快速的图像检索模型。该模型完成从图像全局特征的粗粒度检索到物体局部特征的细粒度检索,以及降维前后不同维度特征的检索任务。本文提出的检索方法在Oxford5K、Paris6K、Oxford105K和Paris106K四个公开数据上分别达到81.3%、86.9%、76.2%和80.2%,相比于目前先进的图像检索方法,本文提出的检索方法效果更优。