基于位置与形状建模的视觉媒体语义分割研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:whansiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,视觉媒体的语义分割一直是模式识别相关领域的研究热点和难点。本文研究了视觉媒体数据中的语义分割问题,从数据表示、特征提取、算法模型和评测方法等方面,揭示了场景图像和三维几何模型这两类代表性视觉媒体的语义分割相关理论与方法。我们首先探索了形状与位置建模对图像语义分割的作用。图像语义分割的目标是分割并在像素上标注图像中的每个物体与背景,所使用的方法可分为两类,即强监督方法和弱监督方法。其中,前者使用像素级标注来训练模型,因而可以利用丰富的上下文信息建模图像场景的空间位置布局、物体形状与区域间关系等;但是,这类方法对数据的标注需求量较大、效率较低,同时存在人工标注带来的不一致性。后者仅需图像级标注来训练模型,相应人工标注的工作量较小,但需要显式推断图像标注与图像区域的对应关系,因而只能建模简单的空间位置信息。本文提出了两个新的模型,即弱监督主题一致模型(Weakly-Supervised Co-herent Latent Topic Model,WCLTM)和强监督多尺度和积网络模型(Multiscale Sum-Product Networks,MSPN),来分别对图像中的位置布局与物体形状建模,并探索不同情况下的语义分割问题。本文提出的WCLTM模型建立在多重过分割区域的表示上,因而可以避免分割算法不稳定带来的影响。WCLTM在LDA(Latent Dirichlet allocation)主题模型的框架下结合了两个新的成分:主题间的Markov建模与标注推理,其中主题间的Markov约束可促使空间位置邻近的区域被分配较一致的主题;而标注推理则将标注与区域关联到主题空间,使得该模型的训练仅依赖图像级标注。同时,本文提供了用来估计WCLTM模型参数的变分EM算法。本文提出的多尺度和积网络模型MSPN模型是一种强监督模型,该模型结合了多尺度单元势能,可解决语义歧义性问题。通过设计恰当的结构,MSPN依次建模了不同尺度的区域间相互作用关系与位置信息,从而可以有效的建模图像中的空间布局与物体形状先验;最后,我们使用多重过分割区域辅助修正MSPN分析的结果。在MSRC数据集、SIFTFLOW数据集与UIUC Events数据集上的实验分别验证了这两个模型解决语义分割问题的有效性。进一步的,我们研究了形状建模对三维模型语义分割的作用。我们提出一种自动三维分割的算法框架,该框架由层次化频谱分析与基于等值线的边缘定位两阶段组成。在第一阶段,我们分析凹敏感Laplacian矩阵的子特征向量对定位分割边界的指导作用并将其定义为权值,然后通过优化子特征向量的加权组合的方式,三维模型的形状信息可以有效的被建模为分割场。在第二阶段,我们从分割场中采样等值线,并提出"划分-合并"算法对等值线分组;最后选取每个分组中的最优等值线作为自动分割边界。该算法在PSB数据集上的结果超过了现有其它非学习类算法,从而证明了该算法的有效性。
其他文献
目前,广大网络用户通过Internet互连网进行信息的交流,相互传送双方需要的数据资料。随着网络用户的增加,网络用户传输的数据信息在网络上被窃取的事件越来越多,研究在公开的网络
电子邮件作为一种异步消息交换(messaging)技术,得到极为频繁的应用。其应用已涉及许多领域,如现代化教学、法律凭证性等等,但目前电子邮件面临着种种安全威胁,普通E-mail的安全
本文的研究内容涉及计算机视觉领域的目标跟踪问题,它是工业界和学术界都普遍关注的热点问题。目标跟踪在其他很多领域都具有重要的应用价值,如行为分析领域、自动化监控领域