论文部分内容阅读
采用计算模型模拟人类视觉注意机制进行感兴趣的物体检测称之为视觉显著性检测。研究表明,视觉显著性与视觉场景深度信息密切相关,开展视觉显著性检测研究在3D感知领域已成为热点课题。人类视觉系统具有出色的3D视觉感知能力,通过视觉注意机制能够快速定位场景中感兴趣的物体区域,即有语义的区域。基于物体的注意力选择观点认为有语义的物体直接吸引了注意力,这是因为物体的语义类别特征具有视觉显著性。3D传感器广泛用于提升智能机器人对现实环境中物体的感知能力,其3D感知RGBD图像提供颜色信息与深度信息互补的约束,更好地描述场景中物体的语义类别特征。基于物体语义类别特征的RGB-D图像视觉显著性检测有助于智能机器人进行场景感知和理解,具有重要的理论和工程意义。本文从概率统计的角度探索RGB-D图像视觉显著性检测与人类视觉注意机制的语义联系,以RGB-D图像的视觉显著性为研究对象,从提高视觉显著性检测方法的F测度等评价指标以及检测结果更符合人类的视觉感知出发,针对已有RGB-D图像的显著特征提取、显著特征融合以及结合先验知识方法准确率和召回率低的问题进行研究,主要研究内容如下:(1)依据语义类别的Depth图像显著特征提取方法:目前人工设计的Depth图像显著特征未能有效挖掘场景的深度信息,尤其场景空间结构信息隐藏的语义类别特征,在深度特征对比度低的情况下无法整体突出语义显著物体区域。通过深层卷积神经网络Clarifai提取Depth图像全局上下文语义特征,建立与基于Clarifai网络提取的RGB图像全局上下文语义特征的语义类别联系,将RGB图像显著特征和Depth图像显著特征统一在语义空间表示。采用两个Clarifai网络提取RGB-D图像的语义类别显著特征,基于语义类别显著特征计算视觉显著性反映了显著物体语义类别的差异,更符合人类视觉感知。(2)考虑RGB图像与Depth图像特征分布关系的语义类别显著特征融合方法:RGB-D图像的显著特征融合时需要考虑RGB图像显著特征与Depth图像显著特征的关系。原有RGB-D图像显著特征融合方法假设人工设计的显著特征具有线性或非线性关系,没有探讨语义类别显著特征的关系。通过分析3D视觉语义显著性在RGB-D图像的分布情况,采用类条件互信息熵度量由Clarifai网络提取RGB-D图像的语义类别显著特征的相关性,基于语义类别显著特征服从条件独立分布的假设,利用贝叶斯框架进行融合得到RGB-D图像显著性的似然概率。基于贝叶斯框架融合语义类别显著特征克服线性相加以及非线性相乘融合的特征干扰问题,具有更好的鲁棒性。(3)结合语义类别先验的RGB-D图像视觉显著性估计方法:已有RGBD图像视觉显著性检测方法基于深度先验突出显著物体,然而依靠深度先验无法有效抑制复杂背景区域干扰。本文从概率统计的角度分析人类视觉显著性数据集,基于狄利克雷-多项式先验分布刻画语义类别显著特征的先验权重,能够以增量方式学习语义类别先验分布。基于语义类别显著性先验分布为狄利克雷-多项式分布,采用改进的判别混合分量朴素贝叶斯生成模型估计RGB-D图像视觉显著性后验概率进行数据集验证,克服基于深度先验特征的视觉显著性检测方法泛化能力弱的问题,在公开的RGB-D图像视觉显著性检测基准数据集得到更高的F测度值。