论文部分内容阅读
长期以来,视觉媒体的语义分割一直是模式识别相关领域的研究热点和难点。本文研究了视觉媒体数据中的语义分割问题,从数据表示、特征提取、算法模型和评测方法等方面,揭示了场景图像和三维几何模型这两类代表性视觉媒体的语义分割相关理论与方法。我们首先探索了形状与位置建模对图像语义分割的作用。图像语义分割的目标是分割并在像素上标注图像中的每个物体与背景,所使用的方法可分为两类,即强监督方法和弱监督方法。其中,前者使用像素级标注来训练模型,因而可以利用丰富的上下文信息建模图像场景的空间位置布局、物体形状与区域间关系等;但是,这类方法对数据的标注需求量较大、效率较低,同时存在人工标注带来的不一致性。后者仅需图像级标注来训练模型,相应人工标注的工作量较小,但需要显式推断图像标注与图像区域的对应关系,因而只能建模简单的空间位置信息。本文提出了两个新的模型,即弱监督主题一致模型(Weakly-Supervised Co-herent Latent Topic Model,WCLTM)和强监督多尺度和积网络模型(Multiscale Sum-Product Networks,MSPN),来分别对图像中的位置布局与物体形状建模,并探索不同情况下的语义分割问题。本文提出的WCLTM模型建立在多重过分割区域的表示上,因而可以避免分割算法不稳定带来的影响。WCLTM在LDA(Latent Dirichlet allocation)主题模型的框架下结合了两个新的成分:主题间的Markov建模与标注推理,其中主题间的Markov约束可促使空间位置邻近的区域被分配较一致的主题;而标注推理则将标注与区域关联到主题空间,使得该模型的训练仅依赖图像级标注。同时,本文提供了用来估计WCLTM模型参数的变分EM算法。本文提出的多尺度和积网络模型MSPN模型是一种强监督模型,该模型结合了多尺度单元势能,可解决语义歧义性问题。通过设计恰当的结构,MSPN依次建模了不同尺度的区域间相互作用关系与位置信息,从而可以有效的建模图像中的空间布局与物体形状先验;最后,我们使用多重过分割区域辅助修正MSPN分析的结果。在MSRC数据集、SIFTFLOW数据集与UIUC Events数据集上的实验分别验证了这两个模型解决语义分割问题的有效性。进一步的,我们研究了形状建模对三维模型语义分割的作用。我们提出一种自动三维分割的算法框架,该框架由层次化频谱分析与基于等值线的边缘定位两阶段组成。在第一阶段,我们分析凹敏感Laplacian矩阵的子特征向量对定位分割边界的指导作用并将其定义为权值,然后通过优化子特征向量的加权组合的方式,三维模型的形状信息可以有效的被建模为分割场。在第二阶段,我们从分割场中采样等值线,并提出"划分-合并"算法对等值线分组;最后选取每个分组中的最优等值线作为自动分割边界。该算法在PSB数据集上的结果超过了现有其它非学习类算法,从而证明了该算法的有效性。