论文部分内容阅读
细粒度图像识别任务一直是一个具有挑战性的任务,主要由于数据集本身具有类内差异大、类间差异小的特性,对于识别任务而言要求图像特征更具信息量。尽管现有方法一直致力于研究发现图像中的高区分性区域,但是只有图像信息会限制高性能识别系统的开发。为了解决上述问题,我们尝试模仿人类的认知过程,利用文本模态的信息作为视觉引导,帮助定位图像中的特别区域。因此,我们在本文中提出了两种新的方法,验证文本模态信息在识别任务中的有效性。首先,我们引入了Pairwise文本描述,该文本主要描述了图像对间的视觉差异,同时相应地设计了多模态鱼类识别网络(MMFN)用于区分易混淆图像对。具体而言,我们利用了文本中的对比性描述作为视觉引导,然后发现图像中的高区分性区域。在这些文本的帮助下,深度卷积神经网络能够提取相应图像区域的特征,并且有助于最后识别结果的提升。其次,我们继续提出通过添加个体文本描述(Individual Text Descriptions)以增加图像特征的表达能力。除此之外,我们利用Image Classification和Image Caption实现多任务的联合训练,通过文本生成的约束从上到下地帮助改善图像特征质量。相应地,这种机制不但能精确生成文字序列,用于描述图像内容的细节信息;而且也同时提高了分类器的识别能力。最后,我们开展了大量实验,同时利用了多模态数据在识别任务中验证了实验设计。实验表明,文本模态的数据可以丰富图像数据中所不具有的信息,因此极大地改善了细粒度识别任务的分类结果。