论文部分内容阅读
近年来,随着多媒体技术和计算机网络的飞速发展,多媒体数据,特别是图像数据,正在以前所未有的速度呈倍增长。如何有效的管理与检索图像数据已成为目前信息检索领域中的重要课题。
最初的图像检索方法利用传统的基于文本的图像检索技术,人工地为图像作出文字化的注释,将图像检索转换成文本检索。该方法具有两个缺点:不同的人对于相同的内容的解释存在较大差异;人工标注的效率低下。而基于内容的图像检索技术不需要用户对检索的内容进行文字描述,直接把图像本身作为检索条件提交给系统,系统根据用户提交的查询样例提取特征,并与待查询的图像特征进行比较,然后返回给用户查询结果。这种方法避免了人工标注的弊端但却绕过了语义层面直接比对图像底层特征,导致查询结果在语义上失配。因而,图像语义的自动标注成为这一领域的研究热点。
另一方面,为了有效地从海量数据中发现有用的信息,数据挖掘技术正越来越受到人们的关注。分类技术作为数据挖掘的一项关键技术也得到了长足的发展。其中基于关联规则的分类技术近年来成为研究的热点。而图像语义的标注问题可以看作是对不同图像按语义进行分类。
图像语义标注的难点之一在于低层的视觉信息与高层的语义信息并不存在显式的对应关系,这一现象被称为“语义鸿沟”(semantic gap)。如何将低层的图像特征与高层的语义信息相联系,即如何有效地根据图像的低层特征提取其包含的语义概念成为这一研究领域的核心问题。
本文中,我们主要基于关联规则进行分类的技术来处理图像语义自动标注的问题。首先,我们将图像分割成几个区域,使得每一个区域的视觉特征尽可能一致,并用一组离散的视觉单词来描述。视觉单词本身是通过对一组人工标注过的图像训练集进行学习得到的。然后,我们在图像训练集上寻找图像语义的决定性表征模式,这些模式是图像视觉单词的组合,它们对于标识某一语义概念是唯一的或者是关键的。最后,我们根据标注效果最佳的原则生成进行图像自动标注的规则集,并对新的图像进行自动的语义标注。基于权威的真实数据集上的实验表明,我们的方法在对含有多个语义概念的图像进行概念标注时要比之前的一些算法效果更好。