【摘 要】
:
三维目标检测在汽车自动驾驶、机器人环境感知等应用中占有重要的地位,主要研究如何有效地感知三维环境信息,对感兴趣目标进行准确分类和定位。相比于二维目标检测,三维检测由于维度增加更具有挑战性。一方面,各类传感器数据单独应用于三维场景理解时都有不足之处,例如激光雷达获取的点云稀疏且不规则;相机获取的图像缺乏空间深度信息。另一方面,物体在空间中随机分布,当目标距离远或部分被遮挡时,容易出现漏检情况。针对以
论文部分内容阅读
三维目标检测在汽车自动驾驶、机器人环境感知等应用中占有重要的地位,主要研究如何有效地感知三维环境信息,对感兴趣目标进行准确分类和定位。相比于二维目标检测,三维检测由于维度增加更具有挑战性。一方面,各类传感器数据单独应用于三维场景理解时都有不足之处,例如激光雷达获取的点云稀疏且不规则;相机获取的图像缺乏空间深度信息。另一方面,物体在空间中随机分布,当目标距离远或部分被遮挡时,容易出现漏检情况。针对以上问题,本文基于多传感器信息融合能够优势互补的特点,重点研究了如何提高三维目标检测的准确性、鲁棒性和实时性,从点云和图像特征的提取与融合两个方面对已有工作进行了改进和优化。本文的主要工作如下:(1)针对传统特征金字塔结构深层语义信息前向传递性差的问题,设计了一种基于跳跃特征金字塔的全分辨率特征提取器。该特征提取器以VGG16为骨干网络构建特征金字塔,通过跳跃连接融合多层高语义级特征图的语义信息和低层特征图的细节信息,为后续检测任务提供更有效的全分辨率特征图。实验表明,使用改进后的特征提取器能够提升算法的整体检测能力。(2)针对目前已有的融合方法忽略了点云量化过程造成信息损失,以及融合过程粗糙导致检测鲁棒性差的问题,提出了一种结合自适应融合策略的多模态特征融合方法。该方法首先使用Point Net网络补充原始点云局部特征,然后利用自适应融合方法动态调整鸟瞰图、RGB图像以及点云区域特征参与检测任务的权重,得到鲁棒性更强的区域融合特征,最后再使用特征拼接方法融入候选框的方位特征。实验表明,该融合方法能够显著提高算法的检测精度,在KITTI验证集车辆类别上三种难度集合的3分别提升了2.17%、2.18%和7.56%。(3)基于上述改进方案,本文实现了一种基于点云和图像融合的两阶段检测方法以及一种快速单阶段三维目标检测方法。两阶段融合检测方法主要包括基于跳跃特征金字塔的三维区域提议网络和基于多模态特征融合的三维目标检测两部分。快速单阶段检测方法将目标检测转化为回归问题,采用focal loss解决密集锚框带来的类别不平衡问题,有效地减少了模型参数,在略微牺牲检测精度的同时检测速度提升了约30%。本文在KITTI和nu Scenes数据集上进行了多组实验,实验结果表明本文提出的改进方法能够有效提高三维目标检测的准确性和鲁棒性,并且本文的检测方法不仅对于远距离目标以及部分被遮挡目标检测具有一定的优势,对于不同场景光照条件的变化也具有一定的适应性。
其他文献
新媒体和互联网技术推进了新课程改革,课堂教学的方式发生了深刻转变。基于陇南一中"未来课堂"历史教学实践的现状,选取《物质生活与习俗的变迁》教学设计案例进行分析研究。
用户界面(User Interface,UI)原型设计是以用户为中心的应用软件开发过程中必不可少的一步。在界面原型设计的早期阶段,设计人员并不知道界面应该是什么样的,此时通常会使用线框图(Wireframe)进行探索。线框图是用户界面的图形化骨架,按照细节实现的程度,可分为低保真线框图和高保真线框图。低保真线框图是线框图的粗糙和基础表示版本,通常在纸上进行绘制,用于试验设计人员最初的想法,传达设计
随着互联网的发展,电子商务平台网站用户和商品数量急剧增加,用户的需求也是因人而异。推荐系统能帮助用户从海量的商品中找到喜欢的商品,改善用户购物体验的同时,也带来了巨大经济效益。传统推荐系统将用户对商品的评分信息作为输入,导致输入数据非常稀疏。解决数据稀疏性的常见方法是在算法中额外引入一些辅助信息作为输入。而用户评论文本包含丰富的语义信息,可以在一定程度上弥补数据稀疏问题。相比传统的推荐系统算法,基
近年来,随着物联网以及人工智能的飞速发展,计算机的计算性能和信息处理能力得到了极大提升。然而计算机硬件设备的运算速度越快,运行的应用程序越复杂,设备消耗的电量也越大。由于受到计算机硬件设备大小和芯片制作工艺的约束,降低计算机硬件功耗变得越来越困难,所以从软件层面降低功耗的办法受到了普遍关注。而软件功耗评估作为软件功耗优化研究的基础,更是成为了重点研究对象。现有软件功耗评估方法大多集中于软件功耗的建
近年来,倾斜摄影测量技术在大规模场景自动化建模方面获得了广泛的应用,成为了目前日益重要的数字资产。在实际应用中,由于模型数据可能需要不断更新以及保护知识产权等原因,往往需要将模型数据集中保存在服务器上。而在客户端应用需要渲染时,实时地通过网络传输最新数据来完成渲染。由于三角网格在几何、顶点索引和纹理信息上的紧耦合性,使得场景数据必须完整传输后才可以在客户端开始渲染。在网络带宽不稳定时,无法保证数据
图像是信息的重要载体,所呈现的内容丰富多样。前景通常是图像内容的关键信息,人们在观察分析图像时也会重点关注这部分内容。在现实生活和工作中,前景提取被广泛应用于图像处理相关领域,如自动驾驶、影视特效等领域。前景提取结果的准确率会直接或间接影响后续的图像处理环节。人眼视觉感知物体的过程具有整体优先效应,即先感知物体的整体视觉形象,再感知其局部细节。为进一步提高前景提取的准确率,本文从人眼视觉感知的角度
近年来,由于互联网的快速发展,网络中的内容与信息呈爆炸式增长,非专业人员想要从搜索引擎获取有效医疗信息的难度进一步加大。同时,由于我国的医疗建设水平无法跟上患者的就医需求,医患矛盾的现象始终得不到根本的解决,所以问诊难的问题普遍存在。随着大数据和人工智能时代的到来,人们获取各类信息的方式开始变得更加敏捷和高效,加快实现医学领域的信息化是一个迫切且具有重要意义的问题。为了方便患者在需要就医时能及时地
藏族医学,简称藏医,是中国传统医学的重要组成部分。然而,藏医的疾病诊断与治疗过程十分依赖医生的个人经验。同时,藏医院的信息化建设相对落后,以电子病历为基础的决策支持系统建设尚处于起步阶段。这些问题已经对现阶段藏医的传承和发展产生阻碍。本文依托青海省自然基金项目——“基于数据挖掘的藏医诊疗决策支持系统关键技术研究”,以藏医用药决策支持为切入点,将数据挖掘技术、推荐算法与藏医用药理论结合,借助青海省藏
如何更高效地制作具有较强真实感的可变形人体角色动画一直是计算机三维动画技术研究中的热点之一。为了提高人体角色动画真实感,研究者们通常采用物理或动力学模拟的方法,在初级运动(如行走等)的基础上模拟人体运动过程中的次级运动(如脂肪抖动等),从而满足人体角色动画的真实感要求。而为了提高动画制作效率,研究者们通常采用动作捕捉技术捕获真实人体的不同运动状态信息再结合手动编辑和调整的方法。基于物理的传统模拟方
噪声作为一种特殊的数据形式伴随着信号的出现而出现,其按概率密度函数可分类为高斯噪声、椒盐噪声、伽马噪声、瑞丽噪声等。图像噪声的产生会使其含载的信息受到干扰,对后续依赖于图像数据的处理如数据挖掘、机器学习、图像识别等造成很大影响。经典的图像去噪算法针对二维图像数据,应用各种先验知识与数学模型在尽可能保留原始图像细节的前提下最大程度去除噪声干扰。然而对高光谱图像(Hyperspectral image