论文部分内容阅读
场景语义理解是机器感知现实空间的重要手段,是解决高层次视觉任务的基础和关键。因此,它在工业自动化、智能机器人、自动驾驶、智慧交通、遥感测绘等领域具有重要的研究意义。然而,由于现实场景中环境复杂,包含大量物体,并且受到遮挡和光照等因素的影响,使得基于二维图像的语义理解方法性能受到影响,准确度不够高。随着传感器技术的发展,激光雷达已成为获取三维场景数据的有效手段,并得到了广泛应用。因此,基于三维数据的分析方法成为理解真实场景的关键,具有重要研究意义。本文致力于对复杂场景语义理解中的关键技术展开研究,重点针对场景下的语义分割和物体识别,结合二维图像信息与三维点云信息,开展了图像分割、点云特征提取,多模态特征融合等方面的研究,并将语义理解信息应用到物体姿态估计中。本文的主要研究工作和创新点如下:针对现有交互式分割算法对初始种子点数量和位置敏感的问题,从高效利用图像上下文的角度出发,提出了一种基于多层非参数模型的交互式分割算法。通过建立多层非参数模型求解能量函数中的数据项。在平滑项估计中,增加了像素及其对应区域之间的标签一致性约束,可以将其视为像素的高阶势能。为了更好地平衡算法的效率和精度,研究了如何在不影响算法精度的情况下减少各层之间的交互,降低算法的复杂度。最后通过实验验证了本文方法在准确性与效率方面的优势。为了提高图像语义理解的精度和鲁棒性,解决图像中语义性弱、目标尺度变化大等问题,提出了一种基于多路径连接的图像分割网络。在网络编码的初期阶段采用金字塔结构建立多路径信息。由于编码器中的每条路径都包含不同层级的特征,具有丰富空间信息的低层特征可以指导高层特征的提取过程。此外,提出了一种多分支特征提取模块来处理目标物体的尺度变化。实验结果表明,该方法具有较强的特征学习能力,可以捕获不同尺度的目标物体,无需后处理即可获得令人满意的分割结果。针对三维点云的无序性、不规则性等问题,提出了一种基于空间点关系的点云识别和分割方法。首先,提出了一种空间点相关性路径,该路径同时考虑了空间信息和点相关性信息,可以生成高维特征,更好地描述点云的细节,同时不需要显示地搜索中心点及其邻域点,从而降低了算法的复杂度。然后,基于该路径构造一个简单高效的网络,将点特征、相关性特征和全局特征结合起来,用来表达不同层次的特征。实验证明了所提方法的有效性,该方法对特征的判别能力更强。为了进一步提高三维场景理解的准确性,减少物体遮挡、截断等因素的影响,使系统能够理解更复杂的场景,提出一种基于多模态特征融合的语义理解网络。首先,提出一种基于特征细化路径的轻量级网络提取二维图像特征。其次,提出一种能够有效利用图像特征,空间几何结构和全局信息的三维场景语义分割框架。该方法采用异构的网络架构,有效地结合了图像信息和点云信息,解决了使用单一数据结果不够精细的问题。最后,在实验中证明了所提方法对理解三维场景的有效性。将语义信息应用于目标物体的姿态估计中,提出了一种高效的物体六自由度姿态估计方法。从场景语义理解和多模态数据特征提取两方面着手,将语义信息引入姿态估计网络,采用从整体到局部的方式预测物体姿态。为了充分利用深度图像和RGB图像的优势,提出一种基于空间注意力机制的外观特征和几何特征的融合方法。该方法采用基于注意力机制的自适应融合方式提高特征的表达能力。最后在实验中验证了本文方法的有效性和鲁棒性。