论文部分内容阅读
随着互联网Web2.0技术的出现,Flickr等社会化图像分享网站开始兴起,允许人们上传、共享以及使用自定义的标签管理图像。基于社会化图像标签的图像标注和检索技术开始成为研究热点。但是,由于用户使用自定义的语言来描述标签,社会化图像的标签出现不正确、欠完备、不准确和模糊等问题,降低了标签的质量,限制了基于标签的图像标注和检索技术的发展。因此,如何提高社会化标签的质量成为图像检索领域研究的前沿性热点问题。针对提高社会化图像的标签质量这一优化问题,本文根据标签噪声类型的不同,将其分解为四个关键子问题,并提出了多个优化算法提高标签的质量:1.针对错误标签的去除这一问题,本文提出了一种基于多层聚类的标签优化算法。在该算法中,提出了一种结合标签间相关性和图像视觉内容相似性双模态信息的聚类框架,利用该框架可将整个图像集划分为不同的图像子集。并提出了一种标签与图像子集的联合概率模型,利用图像子集内标签的频率与相关关系进行标签的净化。与基于近邻的算法相比,该算法引入了融合双模态信息的多层聚类结构,能适用于更大规模的图像数据集。并且由于该算法融入了标签间的相关性,算法增强了低频的正确标签的相关程度,从而提高了错误标签的净化增益。2.针对图像标签缺失这一问题,本文提出了一种基于正则化最优化框架的标签优化算法。在该算法中,提出使用非负矩阵分解算法挖掘标签间缺失的关系;提出并利用图像的视觉多样性增强标签与图像之间的关系;最后提出使用正则化项的约束作用调整优化模型复杂度,完成图像缺失标签的完备。与传统算法相比,该算法能有效融合标签间的语义相关性和视觉内容上的离散性,增强了图像视觉内容的整体刻画能力,提高了标签完备的准确率,并且计算简洁,实时性较好。3.针对用户使用抽象标签的问题,本文提出了一种基于语义本体和近邻投票的标签优化算法。在算法中,构建了反映标签语义层次关系的语义本体,利用该本体进行抽象标签候选者的判定。提出了抽象标签候选者的标签上下文和图像上下文,并利用两种上下文信息寻找特定标签,提出利用近邻投票算法为过于抽象的标签寻找描述更为精确的特定标签,从而增强标签的描述能力,增加描述图像内容的标签。本文首次提出了抽象标签的优化问题及其算法。实验表明,利用该算法提出的语义本体能准确地检测出抽象标签,并且使用近邻投票算法获得较为准确的特定标签,提高了图像检索的查全率。4.针对标签与图像区域无法对应的问题,本文提出了一种基于多示例学习的标签优化算法。在算法中,一方面提出了两种扩展多样性密度的策略,加快多样性密度函数的计算速度。另一方面,提出了边界阈值的自动选择算法,提高多示例学习算法的效果。改进的多示例学习算法将图像标签与图像区域进行一一对应,从而使得标签描述图像内容的能力进一步精确化,也使得基于标签的图像对象检索成为可能。与传统的算法相比,该算法将多示例学习算法引入进标签优化问题中,更精确地描述图像区域与标签之间的对应关系。与现有的多示例学习算法相比,该算法采用的两种扩展策略,保证了多示例学习过程能更快地计算出全局最优解,计算过程更加简洁。相对于固定的边界阈值,该算法使用自动选择的阈值法区分不同示例,进而提高了标签对应的准确率。