论文部分内容阅读
基于内容的图像检索(CBIR),俗称“以图搜图”,一直以来都是计算机视觉领域的基础研究课题,其对相关研究领域有着深远的影响,并有着广泛的商业应用。随着网络上的多媒体数据呈现爆炸式地增长以及自动驾驶,增强现实等越来越多实际应用的需求,图像检索成为一个基础且具有实际意义的研究课题。近年来,深度学习方法和理论在人工智能,模式识别的代表性研究方向如物体识别,语音识别,物体检测等任务取得了巨大成功。图像检索领域也毫无例外地将传统方法与深度卷积神经网络(CNN)特征相结合,进行编码和聚合得到紧凑的全局描述符表示。CNN特征具有表示能力强,维度低等优点,逐渐在工业界和学术界被广泛应用。本篇论文的研究工作主要在两类图像检索数据集展开:标准物体检索数据集和地理位置检索数据集。两种数据集可以进一步划分为单物体图像检索和多物体图像检索数据集。虽然近年的工作将这些数据集的检索准确度提升到了很高的层次,现今的方法仍存在一些待改进的地方。本文也通过改进现有的方法进一步提升了图像检索准确度。本文的研究工作主要包括:(1)有效解决过度计数问题。自然图像中的物体或多或少具有重复结构,尤其在建筑物上最为常见。之前的一些工作分析这种重复结构会造成该结构特征的过度计数问题,从而影响图像之间的相似性度量。借助于CNN的空间结构,我们使用金字塔池化来聚合CNN的特征图得到区域特征,金字塔池化中使用区域最大池化可以有效地避免局部结构的过度计数问题。同时在实验中,我们发现图像检索中常用的PCA(主成分分析)白化过度地惩罚了全局描述符的过度计数问题,因此我们提出PCA幂白化,通过设置方差缩放因子以合理地解决过度计数问题。(2)通过区域评价解决背景以及干扰物体的影响。在图像检索数据集中感兴趣区域(ROI)通常只占图像的一部分,而广泛存在的背景和干扰区域在检索时会影响图像的相似性度量。借助在自然语言处理领域流行的注意力机制,我们提出两种注意力模块,注意力模块可以评价每一个区域特征并产生相应的权重,自适应地给ROI分配大的权重,背景和干扰区域小的权重以减少其对图像相似性的贡献。通过实验验证我们发现注意力模块可以有效提升区域特征和局部特征的辨别能力。(3)使用关系特征进行图像检索。过去的工作中,几乎所有基于CNN全局描述符的图像检索方法基于这样一个假设:如果两幅图像具有足够多相似的物体,则两幅图像匹配。物体之间的关系在这些假设中被忽略了,而物体之间的关系对于匹配两张图像是很重要的信息。基于图像检索领域流行的区域特征,并借鉴在视觉关系检测,视觉问答等视觉推理任务中广泛使用的关系建模框架,我们提出了一种区域关系模块,该模块通过对区域特征的关系建模可以产生关系特征,进而组成关系特征图。关系特征图相比于传统CNN特征图,具有更高层的包含物体外观和物体间关系的信息,结合常用的聚合方法后表现通常更优。同时通过分析关系特征图的空间结构,我们进一步提出一种新的级联池化方法,极大地提升了检索准确度。