面向精度-效率平衡的交通场景视觉感知算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:gongchp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉算法在智能驾驶的交通场景感知中有着广泛的应用。作为后续决策、规划、控制算法的前置环节,感知算法需要较高的精度;为了保证信息的有效利用和车辆的安全性,算法也需要具有较高的效率。交通场景的视觉感知通常采用精度较高的深度学习算法,但这类算法往往计算量较大,效率较低。因此,有必要对算法的精度-效率平衡进行研究,保证算法的实用有效。本文首先介绍了视觉算法在交通场景感知中的应用,并讨论了交通信号识别和交通场景解析这两类子任务的联系和区别。然后对算法的精度-效率平衡的必要性、目标和方法进行了理论分析。在此基础上,开发、训练了交通场景视觉感知算法,并验证了其精度-效率平衡性能:(1)对于交通信号识别,选择了最常用的交通灯和停车位标志作为感知对象,并将其抽象为目标检测问题。对于这类问题,单步目标检测算法能够以较高的效率实现可以接受的精度,但仍有改进的空间。本文基于不同的解码器和基础网络,开发了多种算法,并对其精度和效率进行了比较。测试结果表明,多种算法的精度接近,但基于轻量化基础网络Mobile Net和高精度解码器SSD的交通信号识别算法具有较高的效率。(2)对于交通场景解析,选择了针对可计数对象的目标检测任务和针对不可计数对象的可行驶区域分割任务,自主开发了实时多任务算法Shu DA-RFBNet。利用精心设计的、共用基础网络并结合多种高精度解码器的网络结构,Shu DA-RFBNet可以高效、高精度地同步实现多个任务。测试结果表明,算法能以40FPS的帧率实现32.71%的多目标检测m AP和82.67%的可行驶区域分割m Io U。(3)选择具有真实动力学特性的底盘、具有合理算力的计算单元和多平台一致的开发工具,搭建软硬件平台进行算法的部署和验证。验证结果表明,Mobile Net+SSD能够以10FPS的帧率和较小的延迟实现高精度的交通信号识别;Shu DA-RFBNet能够以30FPS的帧率实时、准确地感知真实的交通场景。总的来说,本文面向精度-效率平衡,研究了交通信号识别和交通场景解析这两类交通场景感知算法。对于每一种算法,都从设计、实现、训练、部署等方面进行了全面而深入的研究。测试和验证表明提出的算法均能够较好地保证精度-效率平衡。
其他文献
红外图像凭借其被动探测成像和全天候不间断工作的特性,在以科技对抗为主导的现代军事对抗中发挥着重要的作用。由于红外图像的广泛使用,一系列军事方面的红外图像目标检测问题成为科研人员们研究的热点之一。其中远方舰船、导弹、鱼雷等军事设备因为目标距离远、信号弱、小范围等固有属性,在红外成像系统中呈现出弱小目标的特性,该类目标的检测问题成为学者们在该领域长期关注的难题。高辐射的海杂波信号使得目标若隐若现,由于
随着人工智能技术的发展,表情识别的研究取得了突飞猛进的进展。大多数算法的良好表现依赖于训练集和测试集的分布一致性条件,但是诸如图像采集条件、个体属性等因素的不同会使得数据间存在较大的分布差异。因此当把模型应用到新的未知分布的数据上时,其识别精度会有一定程度的下降。跨数据集的表情识别问题具有重要的学术价值,该问题的解决有利于推动表情识别的广泛应用。现有的跨数据集的表情识别方法缺乏对干扰信息的有效排除
需求工程是设计和编写工业软件的关键步骤。以人工为主的需求建模方式非常耗时且容易出错,现有的需求建模方法大多需要人工来完成,或者根据完整的形式化或半形式化需求规范文本进行建模,仍然需要项目工程师事先花费大量的时间和精力,将系统需求完全理解并编辑成规范化的需求文本。因此需要一种自动化的方式可以在极短的时间内建立精确的需求模型。为了实现快速、准确的需求建模,且适用于智能制造领域的功能性与非功能性需求,本
高精度建图和定位是自主代客泊车系统的关键技术之一。在室内停车场环境下,车辆变动频繁,且存在行人干扰,这会导致据其生成的三维场景特征地图频繁更新,对计算资源要求较高。而且,全球导航卫星信号也因遮挡不可使用,这进一步增加了室内停车场低成本、高精度定位的实现难度。基于以上考虑,本文融合低成本的环视鱼眼相机信息、惯性测量单元和轮速编码器测量信息,设计了一种基于地面标志语义类别信息的高精度建图与定位方法,可
随着大数据和人工智能技术的发展,数据的重要性变得越来越凸显,并被经济学人杂志称为数字时代的石油。然而大数据在其产生巨大的价值的同时,也带来了数据隐私泄露的风险。为了实现在数据发布过程中,既保护数据的隐私,又保持数据的可用性,引入随机化的扰动是一种很常见的方法。基于随机加噪的数据发布一方面能够提供严格的隐私量化标准,另一方面通过合理的设计噪声能够保持数据的可用性,也因此成为数据发布领域的研究热点。然
三维激光扫描得到的点云数据是真实世界中的场景在计算机中的三维数据集合,包含了大量的语义信息。场景的三维点云语义分割研究受到了广泛的关注,在众多领域发挥出了重要作用。室外场景中的物体种类较多,分布不均匀,背景环境高度复杂,扫描得到的点云分布不均匀,存在近密远疏的问题,得到的扫描场景还会存在噪声与遮挡等情况。上述种种因素使得室外场景的三维点云语义分割成为了极具难度的挑战。真实世界中经常包含大量干扰因素
核定位信号(NLS)是与载体蛋白结合的蛋白质肽,是蛋白质序列中的一段连续的氨基酸序列片段,用于将核蛋白运输到细胞核中。作为核定位的重要信息,核定位信号的鉴定可以帮助阐明蛋白质功能,进一步的成为对众多疾病的研究和治疗的一种主要研究方法。然而,这种信号的实验鉴定是昂贵的,目前只有有限数量的核定位信号被确定,因此开发用于核定位信号的预测算法是重要的。尽管目前已经提出了几种核定位信号预测算法,但它们通常对
燃烧是能量转换的一种重要形式,目前被广泛应用于电站锅炉、内燃机等场景中,对于人类社会的正常运转具有战略意义,因此进行燃烧诊断,研究燃烧机理从而提高燃烧效率具有重要价值。然而燃烧过程中会产生大量中间产物,它们种类繁多且在燃烧区域内空间分布不均匀,导致燃烧过程非常复杂,这对燃烧诊断工作提出了巨大的挑战。在众多的燃烧诊断方法中,以平面激光诱导荧光、火焰自发光成像为代表的成像类燃烧诊断技术能够充分利用不同
随着对无人车相关技术研究的迅速发展,如何在未知的复杂室外场景下进行高精度定位已然成为一个研究热点。单目视觉里程计是其中一种成本较低,应用范围较广的定位手段。其主要任务是从视觉传感器获取的单目图像序列中解算出相对位姿变换,进而增量式地重建运动轨迹。传统方法的视觉里程计通过多视图几何原理求解位姿,对相机参数和环境变化较为敏感,且流程复杂。近年来深度学习技术的快速发展为视觉里程计提供了新的思路,可以实现
随着无人驾驶、高精地图、智慧城市等新概念的提出,许多场景都需要进行以点云数据为基础的3D环境感知和交互,大规模点云场景下的感知算法的研究具有广泛的应用前景。点云是一种重要的三维几何数据结构,其可以准确、直接的反应真实的世界,因此本文以三维点云数据为载体,研究大规模点云场景下的分类、点云分割以及3D目标检测三个场景感知挑战任务。在大规模点云场景下的分类任务中,考虑到由于采样不均匀,传感器精度等因素的