论文部分内容阅读
基于RGB-D图像的三维场景理解对无人车以及室内机器人的导航都有着重要的应用价值。RGB-D传感器输出的精确深度信息能够弥补双目视觉中的不足之处,同时也可以使研究人员将主要的精力放在物体识别和场景的分类等更为高层的问题上。卷积神经网络所具有的稀疏连接以及权值共享等特性使得它非常适用于解决复杂的视觉问题,例如三维场景理解问题。通常情况下,卷积神经网络的训练都是作为一个单目标优化问题来求解的,但从本质上讲训练卷积神经网络需要求解的是一个多目标优化问题。本文提出了一种新的多目标粒子群算法,该算法通过保留部分有价值的不可行解来加快算法的收敛速度。算法中定义了一种不可行解的适应度计算方法。对不可行解的适应度有影响的因素包括了对约束的违反程度、目标空间中的密度以及粒子更新过程中的反馈。其中目标空间中的密度是通过一种改进的自适应网格来估计的,粒子更新过程中的反馈是通过一种投票机制来实现的。本文将卷积神经网络的训练描述成了一个多目标优化问题,提出了多目标卷积神经网络,并用本文提出的多目标粒子群算法来进行优化。随后,结合本文所提出的法向量计算方法,将多目标卷积神经网络应用到了基于RGB-D图像的三维场景理解中去,并讨论了在无人车以及室内机器人导航中的应用。实验显示,本文所提出的多目标粒子群算法性能优异,基于多目标卷积神经网络的三维场景理解具有较高的应用价值。