论文部分内容阅读
图像数据的爆炸式增长亟需有效的检索方案。传统基于周边文本和基于内容的图像检索技术本身存在局限性,而图像语义标注技术通过给图像自动添加能描述其语义内容的文本标签,有望为两者带来突破。随着图像语义标注技术的逐步应用,其研究场景呈现出标签空间高维化、图像数据海量化、标注环境复杂化等新特点,给已有的基于模型和数据驱动的方法以及领域本身带来了诸多挑战,包括高维标签空间下模型方法的训练成本过高问题、海量图像数据中数据驱动方法的视觉近邻快速检索与信息挖掘问题、复杂标注环境下的图像标签补全问题等。本文针对上述挑战,分别提出了合理有效的应对方案,其主要贡献包括:1.针对高维标签空间下模型方法的训练成本过高问题,提出了一种特征相关的标签空间隐式编码算法,用于高维标签空间的降维,以减少所需基本预测模型的数量。该算法去除了对降维过程的显式假设,直接学习降维结果,并且同时考虑了降维结果的可预测性和原始标签空间的可恢复性,能够在有效降低模型方法训练成本的同时减少标注性能的损失。2.针对海量图像数据中视觉近邻的快速检索问题,提出了一种保持语义相关性的哈希算法,将图像特征映射为二进制哈希码,并通过高效的比特运算计算图像间的汉明距离。该算法将语义空间和汉明空间中的图像相关性分别建模成概率分布,并最小化两者的差异,学习出能保持语义相关性的汉明空间,进而学习出将图像特征映射到该汉明空间的哈希函数。算法在高效检索的同时能保证较高的近邻相关性,且适用于单特征、多特征和跨特征检索。3.针对视觉近邻的信息挖掘问题,提出了一种基于标签相关随机搜索的近邻挖掘算法,用于为不同待标注图像和候选标签自适应地选择近邻。对于待标注图像,该算法通过标签相关的随机搜索过程,挖掘出各个候选标签对不同近邻的信任度,进而结合近邻权重和近邻投票等对其进行相关性预测。算法在获得较好标注性能的同时降低了对近邻数量设置的敏感度。4.针对复杂标注环境下待标注图像存在初始标签的情况,提出了一种基于图像和标签双角度线性稀疏重构的标签补全算法。该算法结合图像特征、初始标签等信息,分别从图像和标签的角度出发,通过线性稀疏重构挖掘和整合多种上下文关系信息用于图像标签的补全,取得了良好的实验效果。