论文部分内容阅读
视觉目标检测是使用计算机从静态图像或动态视频中寻找和定位感兴趣目标,并给出其所属类别。目标检测是计算机视觉的基本问题之一,有较高的研究价值和广阔的应用场景,也是当前的研究热点之一。目前的方法在检测精度以及检测效率上尚无法完全达到通用的检测任务的需求,也即目标检测仍是重要且极具挑战的研究课题。近年来,基于深层卷积神经网络的方法提升了视觉特征提取质量,端到端的卷积网络极大提升了特征提取的效率和性能,在目标检测中得到了广泛应用。这些方法大致可以分为两类,一类是将目标定位和分类作为两个子任务分别使用不同的分支网络来完成;另一类则使用端到端的网络来同时完成两个任务。本文在第一类方法的基础上对其进行改进,提升了多尺度条件下的目标检测精度。使用深度卷积神经网络的目标检测算法的精度在很大程度上依赖于图像特征提取的质量。已有的特征提取方法大多只考虑单一尺度的目标,在多尺度特别是小尺度目标特征提取上存在不足。本文借助空洞卷积在构建具有多尺度感受野的顶层特征图。根据数据集中目标的尺度范围,设置多种空洞率,使得特征提取网络可以得到多尺度的特征图。这样区域建议网络分支和目标分类网络分支可以利用多尺度感受野的特征图来更好地处理不同尺度的感兴趣目标,提升区域建议的准确率以及目标分类的精度。另外,由于高层特征图具有高级的语义特征以及更大的感受野,因此利用其产生目标候选框容易忽略小尺度目标。本文在中间卷积层上增加一个新的区域建议网络分支,利用该分支产生更多小尺度的目标候选框。由于中间卷积层具有更小的感受野,同时保留了更多图像细节特征,因此在中间层的特征图像产生小目标的候选框更加合适。本文通过使用两个区域建议网络分支分别在不同感受野的特征图上产生对应不同尺度的目标候选框,从而保证了候选目标框的召回率。由于图像特征是共享的,因此本文提出的目标检测方法可以在保证算法高效性的前提下提升检测的精度。本文工作表明了多尺度感受野特征图对提升检测精度的有效性,同时验证了用于目标定位的区域建议网络在目标检测网络中具有非常重要的作用,其性能对目标分类结果也有一定的影响。本文提出的方法可以在不显著增加计算复杂度的前提下,有效提升目标定位的准确性,从而提升整个目标检测网络的性能。