论文部分内容阅读
目标检测任务是计算机视觉领域的基本问题之一,而基于监督学习的目标检测算法是当前目标检测算法研究领域的主流,这导致了在大多数的情况下,一个高精度的标注数据集仍然目标检测模型能够获得良好性能的必要前提。然而,在很多实际的生产生活的场景中,高昂的图像获取成本和专家标注的难度导致了高质量图像标注的获取非常费时费力。随着深度学习技术与理论的不断发展,如何通过低质量的训练数据训练高质量的目标检测模型具有很高的研究意义和实用价值。针对这一问题本文提出了一种基于注意力机制的弱监督目标检测算法。使用注意力机制对信息进行筛选的能力来强化卷积神经网络本身的目标定位的属性,并以此为基础实现了在弱监督数据集下训练出可以进行粗略目标检测的模型。本文还针对注意力机制本身存在的一些问题进行了深入的研究和实验,通过往整个算法中添加注意力显著图合并算法和结果细化算法进一步提高弱监督目标检测模型的整体效果,本文的主要研究内容和成果如下:1、使用算法模拟了人类在认识事物时使用的注意力机制并将其应用于弱监督目标检测任务,实现了仅使用图像级别标注数据训练高准确度的目标检测模型的目的。2、注意力机制的特点会导致其倾向于局部最优解和关注待检测目标的局部信息,这种情况也导致注意力机制输出的结果无法直接用于实际的目标检测任务。针对这个问题本文设计了注意力显著图合并算法,通过类似数据增强的方式反复训练多个不同的注意力模型,并通过综合这些不同的注意力模型的结果得到更加有参考价值的目标检测结果。3、为了进一步优化目标检测的结果,本文结合传统计算机视觉边缘检测算法,针对单一物体目标检测这一经典的目标检测任务,设计了基于边缘检测的粗结果细化算法,并在PascalVOC数据集上进行了相关实验证明了本文设计的弱监督目标检测算法在结合了边缘检测算法之后可以达到媲美强监督目标检测算法的效果,并在医疗场景下证明了算法的泛用性。4、针对自然场景文本检测这类目标检测任务,设计和使用了以字符检测算法为基础结合统计方法的针对自然场景文本检测任务的结果细化算法,并在MSRA-TD500、ICDAR2013和ICDAR2015这三个自然场景文本检测公开数据集上进行了实验,分别取得了 81%、82%和59%的准确率。