论文部分内容阅读
近年来,随着人工智能技术的飞速发展,自动驾驶汽车成为了研究热点。摄像头作为自动驾驶汽车中不可或缺的传感器之一,为自动驾驶系统提供重要的图像信息。通过这些图像信息,自动驾驶系统可以获取到汽车视野中所出现的各种障碍物与交通标识牌以及可行驶区域等信息。本文研究自动驾驶视觉感知系统中基于单目视觉的目标检测任务与可行驶区域分割任务。深度学习的出现推动了计算机视觉领域的飞速发展,深度卷积神经网络的应用使得基于视觉的目标检测与语义分割精度有了巨大的提升,但是深度卷积神经网络的计算量十分巨大。由于自动驾驶系统需要实时地对汽车进行控制,这就要求视觉感知算法能够实时运行,而且自动驾驶汽车的车载计算平台属于移动计算平台,其计算能力十分有限。因此,本文设计了一个多任务的深度卷积神经网络,基于单目图像来实时地检测自动驾驶汽车视野中出现的目标,同时分割出当前的可行驶区域。主要研究内容和成果如下:设计了一个图像分类模型Net-A作为目标检测网络与可行驶区域分割网络的backbone网络。在综合分析多个经典图像分类模型的基础上,结合自动驾驶平台的计算性能,设计了一个小型的图像分类模型Net-A。在ImageNet数据集上训练了Net-A,其Top5分类准确率比ResNet-50略低,但高于VGG-19,其推理速度远高于ResNet-50与VGG-19。设计了基于Net-A的目标检测网络与可行驶区域分割网络。对YOLOv3模型进行了优化,设计了目标检测网络,提高了网络的检测速度,基于FCN模型的思想,设计了可行驶区域分割网络。在BDD100K数据集上分别训练了上述两个网络,两个网络在720?1280的分辨率下的推理速度分别为46.7FPS与49.2FPS,推理速度远超自动驾驶系统的实时性要求,而且目标检测网络的检测精度超越了YOLOv3-418与YOLOv3-320,可行驶区域分割网络的分割精度与推理速度都超越了DRN-D-22,虽然比ERFNet的分割精度略低,但推理速度高于ERFNet约15FPS。对目标检测网络与可行驶区域分割网络进行了联合设计。由于同时运行目标检测网络与可行驶区域分割网络需要消耗大量的计算资源,考虑到目标检测网络与可行驶区域分割网络都基于同一backbone网络,因此将这两个网络的backbone网络的参数进行了共享,减少了模型的整体计算量,得到了目标检测与可行驶区域分割联合模型。虽然联合后的模型检测精度与上述目标检测网络与可行驶区域分割网络的单模型相比略有下降,但联合模型的推理速度到达了37.5FPS。将目标检测与可行驶区域分割联合网络部署到了计算性能较弱的NVIDIA GTX1070 GPU计算平台上。由于NVIDIA GTX1070 GPU计算性能较弱,模型的推理速度下降,导致无法满足自动驾驶系统的实时性要求,因此对模型的计算结构进行了进一步优化,减少了模型中冗余的计算节点,使得联合模型在NVIDIA GTX1070 GPU计算平台上,输入分辨率为720?1280的情况下推理速度达到了23.21FPS。