论文部分内容阅读
随着深度学习应用到计算机视觉领域,图像处理方法得到了突破性的发展,而目标检测识别作为其中的基本任务,目前在视频监控、人脸识别、目标追踪等方面都有广泛应用。因此,提高目标检测与识别的精度也成了一大热点研究课题。本文着眼于基于深度学习的目标检测与识别算法,对其原理和应用进行深入研究。基于深度学习的目标检测与识别算法大致分为两类:一是基于区域卷积神经网络的算法;二是基于回归的算法。本文主要研究基于区域卷积神经网络(R-CNN系列)的目标检测与识别算法,这类算法首先生成候选区域,然后用卷积神经网络提取特征,最后通过分类器和回归器对检测框进行分类和定位。其中,Faster R-CNN是R-CNN经过多次改进后提出的算法,它是目前精度最高的目标检测识别算法之一,但仍然有比较大的提升空间。本文对这系列算法进行了测试,深入研究Faster R-CNN算法的原理和算法框架,从而分析其优势和不足,并做出改进。本文主要对Faster R-CNN算法进行了两点改进。第一是改进了非极大值抑制算法。非极大值抑制是几乎所有目标检测算法都会用到的一种筛选检测框的方法。传统的非极大值抑制算法是将分类得分最高的检测框作为基准框,然后删除与它IoU大于一定值的框,这种算法能有效去掉重叠的冗余框,但是它的缺点在于不能够很好的处理两个框相邻的情况,如果图片中包含两个相邻或是重叠度很高的目标物体,使用传统的非极大值抑制处理很容易造成误删正确的检测框并导致漏检的情况。本文以减少漏检为目的,对传统的非极大值抑制算法进行了改进,改进后的非极大值抑制不直接删除与基准框重叠度高的检测框,而是逐轮降低它的得分,这样处理使得改进的非极大值抑制不再像原算法那么粗糙,对框的筛选也更加合理。第二点是提出了一种新的多任务损失函数。目标检测与识别的任务分为分类和定位,所以Faster R-CNN的损失函数分为分类损失和回归损失,其中存在一个超参数使得这两部分损失的权重大致相同。本文分析发现,大尺度目标和小尺度目标对于分类和回归的敏感度并不相同,以此为依据我们提出了一种多参数损失函数。它的目的在于使得在检测大目标时,回归损失所占的权重更大;检测小目标时,则更侧重分类损失。从而提高检测小目标的精度及算法整体精度。本文在公开数据集上进行实验,并与目前主流的目标检测识别算法进行对比来验证算法的有效性。实验结果表明,本文对非极大值抑制算法和损失函数的改进和原算法相比提高了准确率,与主流目标检测识别算法相比也有优势。