论文部分内容阅读
随着人工智能技术的发展,人们希望无人系列产品可以帮助人们执行智慧城市下的交通运输、异情监控以及未来战场上的敌情侦测、敏感目标追踪等任务,这需要机器可以对采集的图像数据中相关的视觉目标进行准确地识别与定位。近年来,基于深度学习的目标检测方法在计算机视觉领域取得极大的成功,已成为该领域的研究热点。然而,面对上述应用场景,当前主流基于深度学习的检测方法存在目标漏检、相似目标误判等问题。过深的网络也会带来巨大计算量与模型体积,使网络模型难以在实际中部署与使用。针对上述问题,本文将重点开展基于深度学习的视觉目标识别与定位技术研究,完成的主要工作如下:(1)针对卷积神经网络无法有效利用图像空间结构特征信息的问题,提出一种基于循环神经网络的空间结构特征提取方法。通过设计一个可训练的空间结构特征提取器,作为神经网络的一个全新层,配合卷积可以得到更具表达能力的融合特征。为提高该特征提取器的实时性能,设计其前向推理与梯度反向传播过程的并行化方案。之后,基于高性能并行计算架构CUDA给出其工程实现方法。(2)针对广域场景的特点,设计一种新的具有特征中继放大、多尺度特征跳级连接结构的轻量化特征提取基础网络,用以提取广域场景中各个尺度目标的特征。进一步地,给出一种方案,将本文的空间结构特征提取器耦合进该基础网络,用以提取具有更强表达能力的多融合特征,供后续识别与定位任务网络使用。(3)在Faster R-CNN检测框架下,改进其识别与定位任务网络。用K-Means方法获取场景中目标的尺度分布,从而选取更合适的预设锚框,减轻网络学习负担。之后,给出一种并行计算方法,解决top-K候选框选取问题,加快网络的整体运行速度。最终,提出一个适用于广域场景和无人系列装备的快速、精准、轻量化目标检测网络模型,用以对相关目标进行精准的识别与定位。(4)在KITTI和Pascal VOC数据集上,将本文模型与Faster R-CNN和SSD模型进行对比实验与结果分析,研究了在面对不同场景和不同种类目标时,本文检测模型的优势与不足。实验结果表明,本文模型在广域场景下具有更优的检测性能与实时性能。同时,通过测评指标的对比,对本文模型存在的局限进行了分析。