论文部分内容阅读
图像标注是大规模图像检索技术的基础,是多媒体领域的研究热点之一。图像标注的目标是为图片指定几个关键词描述其所含的视觉信息。常见的应用中一张图片同时可包含多个关键词,所以图像标注可扩展为多标签图像标注技术。两者都有广泛的实际应用。首先,本文研究了在自动图像标注和多标签图像标注中常用的一些方法,并介绍了对回归模型进行稀疏约束的概念和方法。本文提出了两种图像标注模型分别针对自动图像标注和多标签图像标注问题,并引入了l1稀疏约束项来规范模型参数,使得模型具可解释性。这两种标注模型分别为稀疏logistic回归模型和双层稀疏logistic回归模型。稀疏logistic回归模型以logistic函数学习图片视觉特征与图片标注间的关系,表现为给定图片特征向量求对应标注的条件概率。一般性地,考虑到每个标注只与几个有限个数的视觉单词相关,因此在模型中引入彩l1稀疏约束项来规范模型参数,使得模型更具可解释性。双层稀疏logistic回归模型分为两层。第一层分别学习了图片视觉特征与标注间的关系以及不同图像标注间的语义相似性关系。第二层将这两种不同信息结合起来,并以这些信息指导图像的自动标注过程。同样地,考虑到每个标注不仅只和几个有限个数的视觉单词相关,而且只和所有标注集合中的一小部分标注相关,因此在模型中分别引入两个l1稀疏约束项来规范模型参数,使得模型更具可解释性。