论文部分内容阅读
目标检测是计算机视觉领域基础且具有挑战性的课题,其主要目的是识别图片中所有目标的类别并定位。本课题在大量国内外研究基础上,探讨当前基于深度学习的目标检测技术面临的困难和挑战。针对这些困难和挑战,本课题从卷积神经网络的平移变化性、卷积滤波器感受野、特征图分辨率及融合三个角度出发,提出解决方案。本课题提出了一种对位置敏感的网格卷积神经网络。当前最优的目标检测方法通常依赖于针对图像分类任务设计、并在大型图像分类数据集上预训练的卷积神经网络(Convolutional Neural Network,CNN),然后在目标检测数据集上对预训练的CNN进行调整。图像分类任务需要CNN的平移不变性越强越好——当目标在图片中移动时,期望对目标做出相同的、无差别的判决;目标检测任务需要CNN有一定的位置表示平移可变性——当目标在边界框中移动时,期望做出具有区别性的判决,以区分好的定位和差的定位。位置敏感的网格卷积神经网络包括网格卷积层和网格池化层。网格卷积层包含一组并行的卷积层,分别输出对目标不同位置敏感的特征图,网格池化层的输出单元交替地来自于不同的特征图。网格卷积神经网络可以通过网格种类控制对目标平移的敏感性,从而解决为图像分类任务设计的CNN平移不变性太强的问题。实验结果表明,网格卷积神经网络可以改善目标检测性能,提高目标检测精度。本课题提出了一种新的卷积形式来自适应地确定卷积滤波器的感受野大小,称为感受野自适应卷积。CNN中卷积滤波器的感受野大小是目标检测任务的关键问题,卷积滤波器输出必须响应图片中适当大小的区域才能捕获有效的信息。由于CNN固定的几何结构,卷积滤波器的感受野大小是固定的。然而,一张图片可能有多个不同尺度的目标,高层的卷积滤波器在空间位置上编码语义特征。因此,目标检测任务期望能够自适应地确定卷积滤波器的感受野大小。感受野自适应卷积可以自适应地确定卷积滤波器的感受野大小,它通过为滤波器添加不同的膨胀值,分别计算卷积值,并选择其中最大值作为输出。实验结果表明,感受野自适应卷积可以根据目标尺度自适应的改变感受野大小,以提取更优的特征图,提高目标检测精度。本课题提出了一种对高分辨率特征图进行多级融合的目标检测架构。目标尺度变化大,特别是小目标检测是目标检测任务面临的主要挑战之一。当前主流的CNN架构具有较大的步长,导致提取的特征图分辨率比较低,这使得小目标检测具有一定的挑战性。在保持输入图片尺寸不变的情况下,高分辨率特征图多级融合模块可以将CNN顶部特征图的分辨率提升为原来的4倍并对特征图进行多级融合,以解决目标检测任务中小尺度目标检测困难和目标尺度变化大的问题。另外,此方法通过明确地建模特征图通道之间的相互依赖性自适应地重新校准通道间的特征响应。实验结果表明,此方法提取的高分辨率特征图,可以提高目标检测精度,特别是对于小尺度目标。