基于弱监督学习的网络图像语义解析

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yelulsww910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网进入Web2.0时代,越来越多的用户使用语义标签对网络图像进行标注,并在图片分享网站Flickr,Picasa上进行分享。这些图像数据呈现爆炸式的增长,给图像的索引和检索带来了巨大挑战。为此,快速、有效的自动图像标注成为了当前研究的热点问题。  图像语义解析是一种细尺度的图像标注技术,它不仅仅要指出图像中“有什么”,还要指出“在哪里”,即把语义标签映射到图像中相应的区域上去,从而实现更细致准确的标注效果。目前已有的图像语义解析方法,大部分都依赖于精确标注的训练数据,即人工标注到像素级别的训练图像。但是大数据时代的网络图像内容变化多端,语义分散各异,耗费人力的手工标注方法越来越不能满足需要。与此同时,图像分享网站提供了大量带有社会标签的图像。社会标签即用户对图片添加的分类标签。如果能够把这些图像直接用于辅助图像语义解析,会极大改善解析的性能。因此,为了更好的利用可能带有噪声标签的网络图像进行深层语义理解,从而减轻对精细标注数据的依赖,本文的工作主要围绕基于弱监督学习的网络图像语义解析展开,提出了若干有效的解决方案。弱监督不仅意味着训练图像仅仅被标注了图像级别的语义标签,但是并没有标到相应的像素上去,还意味着训练图像可能含有噪音标签。本文研究的主要内容和贡献如下:  针对弱监督图像语义解析,提出了一种基于弱监督的聚类算法。为了同时最大化同一聚类内的视觉一致性和不同聚类之间的可分性,将谱聚类和判别式聚类相结合。用谱聚类学到的类标指示函数来指导判别式聚类,学习特征的潜在结构,并为每个类别选择出具有判别力的特征。利用图像级别标签作为弱监督信息,为每个聚类分配语义标签。本方法能够充分挖掘区域上下文信息并且进行有效的特征选择。还能输出鲁棒的多类分类器,对没有标签的测试图像也可以进行有效的语义解析。  稀疏编码作为一种有效表达,在处理复杂的图像任务时,需要引入更为有效的结构先验模型。具体地,为了充分利用互联网上的大规模在线图像数据,提出了一种基于搜索的双重稀疏编码算法。首先利用网络检索出来的图像作为训练数据,针对这些可能带有噪声标签的训练数据,第一重稀疏编码是利用对标签向量稀疏编码的方法代替传统的欧式距离度量方法,选择和待解析图像语义相关的图像,从而避免了多义性关键字带来的歧义。第二重稀疏编码是将图像的标签信息作为一种先验嵌入到编码结构中,对待标注区域的视觉特征进行组稀疏编码,有效地克服了视觉内容中存在的“语义鸿沟”缺陷。还提出了一种弱监督字典学习算法,既能够学习出紧致、有判别力的特征表示,又能训练出鲁棒的分类器,提高了标注准确性。  传统的基于分类方法解决图像语义解析问题思路多是将问题进行退化,转化成多个二分类问题。这样会造成大量的信息损失。我们提出了一种基于boosting框架的多示例多标签学习方法,通过定义基于弱监督信息的损失函数和基于上下文约束的损失函数,在boosting框架下,直接学习多个分类器,充分利用了区域之间的上下文关系,减少了信息损失。在每轮迭代过程中,结合了目标检测中“objectness”(物体性)的概念,即对物体类样本和背景类样本分别度量其属于某一类别可靠性,从而增强了对物体类和背景类之间的判别力。  针对目前绝大多数图像语义解析方法不能解决的噪声标签问题,我们提出了一种基于结构SVM的弱监督学习模型,并基于该模型设计了候选标签集学习算法对图像区域进行标注。为了充分利用图像的先验信息,提出了基于视觉语义一致性方法,生成准确紧致的标签向量候选集。候选标签集生成算法和学习算法都可以一定程度去除噪声标签。实验结果表明本方法能够有效处理带有噪声的训练数据。
其他文献
随着工业化与信息化的不断融合和工业4.0的快速推进,在技术上,工业控制系统(ICS)越来越多地使用公开软件和开放协议;在管理上,工业控制系统的操作层与IT层融合日益紧密(即所谓OT
学位
学位
学位
作为中华民族传统文化的瑰宝,中医针刺是我国医疗卫生事业中独具特色和优势的巨大卫生资源。近年来,以其“简、“便”、“廉”、“验”的特点,中医针刺得到了大力推广并逐步获得
该文以网板自动对板过程中位置偏差检测及整个系统控制技术的研究与实现为论题,讨论了在玻璃母板上设计差动光栅结构,借助差动摩尔信号判断几何体在平面坐标中三自由度方向(
永磁无刷直流电机在运动控制系统中,往往需要通过位置传感器去检测电机转子的位置,从而根据转子位置的信息去依序导通逆变器中的功率管,输出逆变电压驱动电机旋转。而在某些场合
近年来,多项式系统辨识问题是非线性系统辨识领域的一个研究热点。针对多项式系统状态和参数的估计精度受初值影响较大的问题,本文提出了一种基于扩展卡尔曼滤波(Extended Ka
该论文的研究工作是人脸识别的一部分,主要涉及人脸检测以及面部器官的特征线提取.论文首先介绍了人脸识别的过去及现状,粗略地总结了前人在人脸识别方面做过的工作及取得的
随着彩色数字复印技术的不断发展和彩色复印市场需求的迅猛增长,彩色数字复印设备因其造价低廉、技术可靠而得到了业界广泛的重视.该论文研究过程,识别技术动用数字图象处理