论文部分内容阅读
随着人工智能技术以及计算机硬件和软件的不断发展,越来越多的智能服务机器人被应用到人们的生产生活当中。为了让智能服务机器人更加有效的完成特定的任务,就需要逐渐提高智能服务机器人对于外部环境的感知和对于现实场景的理解的能力。机器人获取外界信息的主要途径和人类的视觉系统类似,机器人利用搭载的视觉传感器来获取外部信息。其中基于视觉传感器采集图像信息应用于机器人的目标检测技术则是机器人感知和理解外部环境的重要手段。但是,基于传统特征提取的目标检测算法,在特征提取过程中多是较为低层次的特征和人为设定的特征。这些特征提取算法特征相对简单,不能很好地提取较为复杂场景的特征。最近,随着深度卷积神经网络的快速发展,尤其是深度卷积神经网络在图像检索、文本分析、图像识别等领域获得巨大的进步,基于深度卷积神经网络的目标检测技术,发展成为人工智能领域中的研究热点。卷积神经网络和人脑处理信息的方式类似,将低层图像特征进行不断的抽象组合为更加抽象的特征,增强了图像特征表达的能力。基于深度学习的目标检测算法已经取巨大的进步,但是在面向环境感知的移动机器人时,目标检测算法仍然存在诸如小目标检测效果差、缺乏足够标签数据等问题。本文基于卷积神经网络,研究面向服务机器人环境感知的目标检测方法,提高巡检机器人对场景理解的能力。主要研究工作包括:(1)针对现有基于深度学习的目标检测方法在预测阶段存在不能有效利用高层语义和低层细节信息之间的关系、对小目标物体检测效果较差的问题,提出了一种基于跳跃连接金字塔模型的目标检测方法。在深度学习模型中,高层特征具有高度的抽象性,而低层的特征具有详细的细节信息,提出利用跳跃连接金字塔结构旨在融合高层特征语义信息和低层特征的细节信息,以提高目标检测性能。此外,为了使网络模型能够提取更加全面的图像特征,设计了一种由多个不同大小的空洞卷积核和不同步长的空洞卷积的并行聚合结构,进一步提高目标检测的精度。为了验证所提出的算法有效性,我们在多个不同的数据集上与现阶段的主流方法进行了对比实验。(2)基于深度学习的目标检测的训练往往需要大量具有详细标注类别和位置信息的数据集。在服务机器人的实际应用中,详细标注大量的具有类别信息与位置信息的数据则需要耗费大量的人力和物力。针对上述问题,本文提出基于弱监督学习的目标检测方法,以逐步满足服务机器人环境感知的应用需求。与有监督学习的目标检测相比,基于弱监督学习的目标检测由于缺乏位置标签信息,导致最终检测不能很好地定位目标。为此,提出了一种基于通道选择对抗消除的弱监督目标检测方法。首先以VGG16组建基础特征网络提取图像的初级特征,进而以SE(Squeeze and Excitation)模块构建显著区域特征提取网络获得显著区域的特征;然后通过设定阈值将显著区域特征归零,并以SE模块构建次级区域特征提取网络得到图像的次级特征;其次,将得到显著区域特征图和次级区域特征图进行融合得到表达目标物体的综合特征图;最后利用多示例学习预测得到最终的目标检测结果。在多个不同的数据集上与现阶段的主流方法进行了对比实验,验证了所提出算法的有效性。(3)机器人感知周围环境时,需要对利用摄像头获取的视频进行包括目标检测在内的处理。与图像相比,视频具有更强的序列图像特征相似性和更加丰富的上下文信息,但基于视频的目标检测算法应用于机器人时需要考虑实时性,若采用对视频进行逐帧检测,会导致实时性较差,在检测过程中也会因存在局部遮挡、光照剧烈变化等因素造成漏检和误检。针对上述问题,本文提出了一种基于动态关键帧的视频流目标检测算法。通过利用聚类的方法动态提取视频的关键帧来降低特征提取所耗费的时间,并采用光流法将关键帧的特征传播到非关键帧,实现视频图像序列的目标检测。在多个数据集上的实验结果表明,本文提出的方法能够有效提高基于视频的目标检测算法的实时性,同时减少了误检和漏检的发生(4)为了更好地满足机器人在真实环境下进行目标检测的需求,在本文理论研究的基础上,通过利用计算机语言C++中的MFC技术和python技术,设计实现了智能服务机器人目标检测的软件系统,并对提出的算法模型进行了软件集成。软件系统主要分为三个主要功能:小目标检测、弱监督目标检测、视频流目标检测。该软件系统不仅实现了公共数据集的目标检测,而且实现了移动机器人在真实场景中运动过程所拍摄视频的目标检测。