论文部分内容阅读
随着软硬件技术的发展及网络带宽的不断增加,图像和视频数据越来越多,如何使计算机有效的处理和理解这些数据,以协助相关行业人员,是一个重要的问题。2012年深度学习的兴起,使工业界和学术界关注的重点逐渐转移到基于卷积神经网络的视觉算法上。目前,卷积神经网络广泛应用于计算机视觉领域的各个方面。其中,目标定位作为一项基础性研究,应用于许多高层视觉任务中,如智能交通,智能安防,医学影像等。本文以“基于卷积神经网络的弱监督目标定位”为问题核心,提出了多层次特征融合的目标定位方法及基于目标定位的细粒度图像识别框架,本文主要内容如下:首先,本文结合SSD和Dens Net的思想,基于CAM设计了一种多层次特征融合的弱监督目标定位方法。目前的目标定位方法,如CAM和SPSM,是从卷积网络的最后一层卷积层提取信息的,缺少了低层信息,本文提出的方法将高层特征图和低层特征图融合,能弥补高层特征图缺少的目标形状信息及大小信息,同时能够抑制低层特征图带来的噪音。本文将提出的方法在CUB-200数据集、Caltech101数据集、Image Net数据集上与CAM和SPSM进行了对比。在三个数据集上,与CAM相比平均定位成功率分别提高了3.3%、11%及4.7%,与SPSM相比平均定位成功率分别提高了3.7%、1.4%和4.7%。其次,本文针对细粒度图像识别任务将目标定位方法进行优化,提出了定位切割填充学习框架。目标定位在细粒度识别任务中的主要功能是发现并放大图像中的物体,从而消除背景干扰。在一些图像中,物体很小,会影响识别结果。通过弱监督目标定位算法放大这些小物体,使得所有物体的大小相差不大,从而提高识别精度。切割填充运算能够切断物体各部分之间的关联性,可以使子图像更加独立,但不会破坏高层语义。本文在CUB-200数据集、Stanford Cars数据集、FGVC AIR数据集上与其他方法进行了对比,结果表明LCPL优于其他方法。