图像检索中基于近似k-近邻图的近似最近邻搜索算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:daijiangduck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近邻搜索作为一个基础性问题,广泛出现在数据库、机器学习、计算机视觉和信息检索等领域。最近邻搜索问题可以被简单定义为,给定查询向量和n个同维的候选向量,要求返回某种距离度量方式下距离查询向量最近的一个或多个候选向量。在许多现实应用中,精确算法往往需要高昂的时间和空间代价,而近似最近邻搜索则以牺牲一定的准确率为代价,显著地降低了对存储空间和查询时间的要求。近似最近邻搜索因其实用性,受到了广泛关注,许多算法相继被提出,包括基于空间分割、基于哈希、基于向量量化和基于近邻图四类算法。然而目前还没有通用的亚线性时间复杂度的近似最近邻搜索算法。在大数据时代,设计高质、高效的近似最近邻搜索算法具有重要的理论意义和实用价值。基于(近似)k-近邻图(k-NX图)的近似最近邻搜索算法是当前的主流算法,一般包括两个步骤:一是对候选向量离线构造k-NN图,二是基于k-NN图采用某种搜索策略返回查询结果。k-NN图的质量和搜索策略极大地影响了算法的效果和效率。本文对k-NN图的构造,以及爬山搜索(GNNS)算法做了改进。主要结果有:(1)发现爬山搜索算法存在冗余计算、收敛速度慢,提出一种改进的爬山搜索(E-GNNS)算法:即在每一轮迭代中,不只对第一个样本,而是对前k个样本都在k-NN图上进行扩展。实验表明,E-GNNS算法在搜索效率和平均召回率上获得了显著提升。(2)在爬山搜索种子点的选择上,采用基于RVQ编码的倒排索引来生成候选种子点,替代原方法的随机种子点。实验表明,在这一策略的支持下,E-GNNS算法能够在相似的搜索时间下,获得超10%的平均召回率的提升。(3)为克服k-NN图构造时效率低下、内存消耗严重的缺点,提出一个基于2-M树的轻量级的构造方法。实验表明,该方法能够在不牺牲后期搜索效果和效率的前提下,显著降低k-NN图构造的时间和内存消耗。
其他文献
核能开发是解决人类能源问题的最佳途径,鉴于核裂变设施退役后管护和核废料回收带来新的问题,反场箍缩磁约束聚变研究对突破核聚变发电技术、调整能源结果有着重要的物理意义
GaN作为直接宽带隙(Eg=3.4eV)半导体,具有高电子迁移率,耐高温,抗辐射等优点。纳米材料一方面具有对应宏观材料的优良物理化学性质;另一方面,由于纳米材料的晶体周期性条件被破
信息化物业管理系统在房地产行业的应用使得户主能够更便捷地享受物业服务。在使用信息化物业管理系统时,对用户的身份进行认证是必不可少的一环。传统的基于文本密码的身份
近年来,分布式新能源产业发展迅猛,大量的分布式能源接入后会影响电网的安全稳定运行。作为分布式发电的重要表现形式,微电网为分布式能源提供了良好的接口。由于微电网技术
近几年来,随着半导体工业的不断发展,作为第三代半导体材料,宽禁带GaN和ZnO越来越受到研究人员的重视。GaN材料已经广泛应用于新型光电器件领域。相比于GaN材料,ZnO材料有着
研究背景和目的微小核糖核酸(microRNA,miRNA)是一类内源性的非编码单链RNA,广泛存在于真核细胞中,被认为是一类极具应用潜能的新型生物标志物,有望在疾病诊疗和预后判断等方
自旋电子学器件由于其有较小的单元尺寸,更低的功耗和新兴的电荷—自旋集成功能,因此可能成为超越摩尔定律物理极限的下一代电子器件。在众多半导体中,在硅上实现自旋电子学
进水塔是水利枢纽中的取(泄)水建筑物的控制部分,其安全是保证水流得以顺利通过的基础。进水塔作为高耸建筑物,不仅需要对它进行静力分析,进行地震工况下的动力分析尤为重要
近年来光纤通信技术的不断发展催生了一门新兴交叉学科——微波光子学,主要研究利用光学方法产生和处理微波信号,集成了光子技术和微波技术的优点,具有低损耗、高带宽、且不
小型化的磁共振仪器往往对结构复杂性、可扩展性和成本有特殊的需求,我们希望研究并设计既能够高性能实现信号处理,又具有结构紧凑、灵活重构和低成本的小型化磁共振仪。随着