论文部分内容阅读
随着互联网进入Web2.0时代,越来越多的用户使用语义标签对网络图像进行标注,并在图片分享网站Flickr,Picasa上进行分享。这些图像数据呈现爆炸式的增长,给图像的索引和检索带来了巨大挑战。为此,快速、有效的自动图像标注成为了当前研究的热点问题。 图像语义解析是一种细尺度的图像标注技术,它不仅仅要指出图像中“有什么”,还要指出“在哪里”,即把语义标签映射到图像中相应的区域上去,从而实现更细致准确的标注效果。目前已有的图像语义解析方法,大部分都依赖于精确标注的训练数据,即人工标注到像素级别的训练图像。但是大数据时代的网络图像内容变化多端,语义分散各异,耗费人力的手工标注方法越来越不能满足需要。与此同时,图像分享网站提供了大量带有社会标签的图像。社会标签即用户对图片添加的分类标签。如果能够把这些图像直接用于辅助图像语义解析,会极大改善解析的性能。因此,为了更好的利用可能带有噪声标签的网络图像进行深层语义理解,从而减轻对精细标注数据的依赖,本文的工作主要围绕基于弱监督学习的网络图像语义解析展开,提出了若干有效的解决方案。弱监督不仅意味着训练图像仅仅被标注了图像级别的语义标签,但是并没有标到相应的像素上去,还意味着训练图像可能含有噪音标签。本文研究的主要内容和贡献如下: 针对弱监督图像语义解析,提出了一种基于弱监督的聚类算法。为了同时最大化同一聚类内的视觉一致性和不同聚类之间的可分性,将谱聚类和判别式聚类相结合。用谱聚类学到的类标指示函数来指导判别式聚类,学习特征的潜在结构,并为每个类别选择出具有判别力的特征。利用图像级别标签作为弱监督信息,为每个聚类分配语义标签。本方法能够充分挖掘区域上下文信息并且进行有效的特征选择。还能输出鲁棒的多类分类器,对没有标签的测试图像也可以进行有效的语义解析。 稀疏编码作为一种有效表达,在处理复杂的图像任务时,需要引入更为有效的结构先验模型。具体地,为了充分利用互联网上的大规模在线图像数据,提出了一种基于搜索的双重稀疏编码算法。首先利用网络检索出来的图像作为训练数据,针对这些可能带有噪声标签的训练数据,第一重稀疏编码是利用对标签向量稀疏编码的方法代替传统的欧式距离度量方法,选择和待解析图像语义相关的图像,从而避免了多义性关键字带来的歧义。第二重稀疏编码是将图像的标签信息作为一种先验嵌入到编码结构中,对待标注区域的视觉特征进行组稀疏编码,有效地克服了视觉内容中存在的“语义鸿沟”缺陷。还提出了一种弱监督字典学习算法,既能够学习出紧致、有判别力的特征表示,又能训练出鲁棒的分类器,提高了标注准确性。 传统的基于分类方法解决图像语义解析问题思路多是将问题进行退化,转化成多个二分类问题。这样会造成大量的信息损失。我们提出了一种基于boosting框架的多示例多标签学习方法,通过定义基于弱监督信息的损失函数和基于上下文约束的损失函数,在boosting框架下,直接学习多个分类器,充分利用了区域之间的上下文关系,减少了信息损失。在每轮迭代过程中,结合了目标检测中“objectness”(物体性)的概念,即对物体类样本和背景类样本分别度量其属于某一类别可靠性,从而增强了对物体类和背景类之间的判别力。 针对目前绝大多数图像语义解析方法不能解决的噪声标签问题,我们提出了一种基于结构SVM的弱监督学习模型,并基于该模型设计了候选标签集学习算法对图像区域进行标注。为了充分利用图像的先验信息,提出了基于视觉语义一致性方法,生成准确紧致的标签向量候选集。候选标签集生成算法和学习算法都可以一定程度去除噪声标签。实验结果表明本方法能够有效处理带有噪声的训练数据。