论文部分内容阅读
在Web2.0时代,随着相机、手机、平板电脑等图像获取设备日益普及,人们可随时随地拍照并上传到网络上,通过社交网络迅速传播。调查结果显示,2011年全球有1.8ZB的数据被创建和复制,其中75%是以图片、视频和音乐为主的非结构化数据。面对数量如此庞大的数据,如何快速准确地进行内容查找对大规模数据管理有重大意义。传统的最近邻图像检索方法在处理大规模图像库时,由于“维数灾难”会导致特征存储空间大、检索速度慢的问题。图像哈希技术通过构造哈希函数将高维数据映射成低维的二值哈希码,并在二值空间中保持高维数据的空间结构,具有表示方式简洁、存储空间小、检索速度快等优点,近几年在基于内容的近似最近邻图像检索中备受关注。本文结合图像哈希技术,研究了大规模图像库的检索问题,论文主要工作如下:(1)针对图像没有标签信息的情况,本文提出一种多表弱主成份图像哈希方法。首先,对于每个哈希表,通过“去能量”的方式将数据投影到不同的弱主成份方向上,得到每个哈希函数的输入数据;然后,采用正交旋转的方法对投影方向进行旋转,优化哈希函数的投影矩阵,增强数据之间的区分性。采用CIFAR10和SIFT1M两个国际公开的大规模数据进行测试,与6种已有的哈希方法进行比较,验证了本文方法的有效性。(2)当可以获得一部分图像的标签信息时,本文从特征选择的角度利用标签信息,提出一种基于Boosting的有监督图像哈希方法。该方法借鉴boosting思想,根据前一个哈希表对已知标签样本判别正确与否,确定当前哈希表输入样本的权重,为每个哈希表选择输入样本,并在保持样本关系和哈希码量化误差最小化双重约束下,优化哈希投影向量。实验中,采用CIFAR10和SIFT1M两个测试库,与7种已有哈希方法进行比较,验证了本文方法的有效性。(3)针对汉明距离的整数取值会影响图像的排序问题,本文提出两种基于图像哈希的图像重排方法:基于距离权重的重排方法(DWR)和基于比特位重要性的重排方法(BPIR)。基于距离权重的重排方法将哈希值相同码位的欧氏特征的距离传递到哈希值不同的码位上,以此构造哈希码的权重。在分析不同哈希比特位重要性的基础上,提出基于比特位重要性的重排方法,该方法通过判断汉明距离初始反馈图像和查询图像每位哈希码的异同,为每位哈希比特赋予权重。采用CIFAR10和MNIST手写体库对所提方法进行实验比较,验证两种方法的有效性。