基于注意力机制的目标检测算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:xxyty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测能够快速地从图片或视频中捕捉到感兴趣的目标,并输出目标的种类和目标的位置。作为计算机视觉的重要分支,它是人脸识别、目标跟踪等算法的基础性算法,一直是计算机视觉领域研究的热点。随着目标检测的技术的成熟,它的应用已经普及到生产和生活的许多领域,如交通、医疗、安防等领域。现如今,得益于GPU计算能力不断的提升和深度学习的快速发展,深度学习方法的优越性在许多领域得到体现。计算机视觉领域因深度学习的发展也获得了极大地成功。目标检测作为其中一个分支,不断有优秀的检测模型出现。这些基于深度学习的模型无论速度还是精度都有极大的提升。之前许多基于深度学习的检测算法都依赖人为设计的先验框,尽管锚框的使用促进了目标检测的发展,但锚框的引入会带来额外的参数等问题。如今,无锚框的检测算法开始兴起,其不再依赖锚框,避免了因锚框导致的问题。因此,本文对无锚框的目标检测算法Fovea Box进行深入研究,并对其全局上下文信息不足、细节信息损失等问题提出了解决方案,具体工作如下:首先,Fovea Box网络采用残差网络作为骨干网络,但仅通过卷积操作,获得的感受野有限,无法建立长距离依赖,获得的上下文信息不足。为了加强这种长距离依赖,有效提升检测性能,本文在Fovea Box的骨干网络中引入全局注意力机制。全局注意力可以在特征的空间域和通道域两个方面对特征进行增强和校准,关注需要关注的特征,获得图片的上下文信息,减少背景环境干扰和目标遮挡对检测精度的影响。使用Pascal VOC和MS COCO数据集对本文的模型进行训练和测试。实验表明,相比于原始的Fovea Box检测模型,本文的模型在Pascal VOC数据集上精度达到了80.0%,提升了0.6%,在MS COCO数据集上精度达到了40.8%,提升了1.7%。其次,针对细节信息从特征低层向特征高层传播过程丢失的问题,考虑到目标检测包含分类和定位两个任务,需要语义信息和细节信息,因此本文设计了自底向上的短连接通道弥补细节信息在传递过程的损失,丰富了高层特征的细节信息。考虑到融合过程噪音的干扰,引入注意力机制,提高获得的融合特征的表征能力。实验表明,相比于原始的Fovea Box检测模型,本文的模型在Pascal VOC数据集上精度达到了81.0%,提升了1.6%,在MS COCO数据集上精度达到了41.3%,提升了2.2%。
其他文献
图像的风格迁移是一种重要的图像处理技术。风格迁移技术旨在通过一定的算法,将一张图片的内容信息与另一幅图片的纹理、色调、轮廓等风格信息相互融合,继而创造出一张全新的图像,与原图像相比,生成的图像在原有的内容信息不改变的情况下,风格却变得迥然不同。近年来,深度学习的快速发展以及其在图像处理方面的优异表现引起了研究者们的广泛关注,研究者们开始运用深度学习技术来研究图像的风格迁移问题,并取得了许多突破性的
近年来基于共轭聚合物超薄膜的有机场效应晶体管(OFET)成为气体传感领域的热门研究方向。由于超薄膜的厚度仅为几个单分子层厚,其用于气体传感可以增加OFET导电沟道与气体分子的物理接触面积,减少气体分子在有机半导体中的扩散路径,从而提高传感器件的传感性能。本论文围绕OFET超薄膜微观结构与电学、气体传感性能之间关系尚不清楚这一问题,以优化超薄膜OFET气体传感器制备工艺、提高OFET器件传感性能为目
作为人机语音交互的出口,语音合成的效果直接影响到人机交互的体验。一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。目前,大多数很多优秀的致力于提高中性语音成的质量的TTS模型已经被提出,例如Tacotron2和Wave Net。但这些模型大多数使用的是RNN或者LSTM作为编码器和解码器,这种自回归的结构导致这些模型在训练和预测时很慢。此外,随着智能化语音合成系统的不
可变形卷积网络在计算机视觉任务中被广泛使用,在目标检测、语义分割、目标分类以及视频动作检测等多种领域中都展现出良好的性能。在可变形卷积网络中传统的卷积层和可变形卷积层都是计算复杂度的主要来源。然而现有的神经网络加速器主要集中于传统卷积层的优化加速任务,对于可变形卷积层的关注却很少。目前的研究工作中,一种较为常见的做法是通过修改算法,使可变形卷积算法适合在硬件上映射,但是这样的做法或多或少会使得可变
近年来,深度学习方法在计算机视觉领域取得了卓越的进展。然而,这些成就大都依赖于大量的标注样本,当训练样本不足时,深度学习很难发挥作用。为了解决深度模型在小样本情况下的学习问题,小样本学习被提出,旨在通过很少量的标注样本来学习到一个优秀的分类器。由于这一特性,小样本学习逐渐成为视觉识别中的一个受关注的领域。小样本学习的基本思想是从大规模数据集上学习可迁移的知识,并通过这些知识来帮助模型快速地学习到目
交通事故对道路交通安全造成了极大的威胁与挑战,分析事故成因模式对于减少事故发生数量,降低事故所造成的损失起到了积极作用。由于道路交通系统固有的复杂性,常见的自动化算法会显得不够灵活。可视分析通过交互的方式将领域专家的专业知识引入分析流程中,通过将机器智能与人类智能相结合的方式,提高了分析结果质量和效率。因此本文提出将道路交通专家的领域知识与机器智能通过可视分析方法结合至一起,迭代式优化分析结果的方
水下无线传感器网络作为一种探索和开发海洋的新方法,在人类不易接触的水下区域的探测和监测中发挥着重要作用。水下无线传感器网络已广泛用于海洋信息收集,地质灾害预防,资源勘探和军事监测等许多领域,是无线传感器网络领域研究的热点之一。在水下空间中传感器节点如何自主调整位置实现对目标事件的覆盖和监视是一个重要课题,它为网络拓扑、目标监测、数据路由等应用领域提供支持,是决定水下无线传感器网络服务质量和工作效能
图像分割是图像处理领域和计算机视觉领域中的关键技术之一。活动轮廓模型分割法因在医学图像等复杂图像的分割中取得了较好的分割效果而被广泛应用。医学图像大多为灰度不均的且含噪声的图像,基于区域的局部二值拟合活动轮廓模型有效解决了该类型图像的分割问题,但该模型中存在水平集函数演化效率低、分割效果易受噪声影响以及初始轮廓敏感等问题。本文针对以上问题进行改进并做出仿真,具体工作如下:1.针对模型分割效率低和易
目标检测是计算机视觉领域里一项十分重要的任务,在交通、医疗、国防等领域有广泛的应用。深度学习的引入使得目标检测算法获得了巨大的进步,目前基于深度学习的目标检测算法在精确度与速度上已经大幅超越传统算法,成为本领域的主流。本文针对目标检测算法所存在的一些困难,在经典的一阶段目标检测算法SSD的基础之上,进行了一系列的研究工作。本文的主要内容如下:目标检测任务是一种多尺度的任务,使用来自网络中不同深度的
由于时代的进步,遥感领域的科研技术也逐渐成熟,人类通过各类遥感卫星获取大量影像数据变得轻而易举。其中合成孔径雷达(Synthetic Aperture Radar,SAR)和可见光影像应用领域非常之广,尽管两者间灰度值区别很大,可它们均有自身的特性。可见光影像成像机理为光反射成像,依赖光源,所以该影像具备大量的光谱信息与细节信息,直观效果很好。SAR影像的成像机理为主动微波式成像,对桥梁、房屋等建