近似最近邻检索的多哈希表索引及优化

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:feifeifo123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近邻检索是计算机视觉、数据挖掘、机器学习等领域的一个基本问题。随着互联网数据的爆炸性增长,海量高维数据的最近邻检索问题已成为挑战。传统的基于树形结构的最近邻检索方法在面对海量高维数据时表现乏力,而基于哈希表示的最近邻检索方法凭借其高效的压缩存储和快速的检索速度,已经成为解决海量高维数据相似性搜索问题最有效的方法之一。但是,哈希表示的最近邻检索方法存在两个问题:第一是数据通常会被多个哈希函数映射为比特码,所以不同的哈希函数会生成质量不等的比特位,而在大多数场景下,这些比特位是被同等对待的;第二是在数据规模特别大时,原本采用线性扫描的汉明距离计算也不再高效,此时通常会构建哈希表来提高搜索的效率,但是由于长比特码的局限性,传统的单哈希表索引方式已经很难满足对于检索的高效性要求。基于上述哈希表示的最近邻检索方法存在的问题,本文提出HMTable算法和MQRank算法。HMTable是一种性能更好的多哈希表索引结构,用于解决哈希表索引低效的问题,而MQRank是一种结合多表特性的更加细粒度的比特码排序算法。具体地说,由于单哈希表难以满足长比特码的索引要求,因此通常会通过划分比特码来构建多哈希表。因为一些简单朴素的划分方法不能捕获到比特位之间的关系信息,所以构建的多哈希表性能不是很好。本文的HMTable采用分层迭代的方式划分比特码,使得划分的比特码分组更加均匀,从而构建出质量更高的多哈希表;由于汉明距离只是一些离散的整数值,难以准确衡量相同距离下的不同数据点的差别,主要原因在于不同比特位在距离的计算上具有同等的作用。因此,针对比特位一致性问题,本文提出MQRank用于更加细粒度的加权汉明距离计算。MQRank的比特位权重计算综合了近邻点和远邻点对于哈希函数划分能力的影响,同时在各个子表下独立校准权重,使得生成的比特位权重在基于多表的最近邻计算上更加精确。本文在4个公开数据集MNIST、CIFAR1O、SIFT1M和GIST1M上进行实验设计与验证,并在基于多种哈希算法生成的比特码上分别进行多哈希表索引查询与权重优化的实验评价。大量的实验结果表明,本文所提出的方法在近似最近邻检索上具有有效性和通用性。
其他文献
砂土地基作为一种普遍存在的地基类型,在世界各地广泛分布。由于砂土存在无粘聚力的特点,容易发生失稳、液化等破坏现象,如何处理砂土地基也是岩土工程中较为棘手的问题。德
近年来,生物质炭作为一类重要的碳质材料,因其生产成本低、对环境友好、改良效果佳,其在土壤中的应用也受到了越来越多的关注。蚯蚓作为土壤中生物量最大的动物类群之一,能够
随着基础建设的大规模开展,工程中土石混合体日益增多,且填方高度不断突破,其中以堆石坝发展最为迅猛。填筑体变形控制是保证填方工程安全的关键环节,因而变形计算非常重要。
稻瘟病是水稻的重大病害之一,危害范围广且难以防治,对水稻生产造成严重威胁。MicroRNA(miRNA)作为一类非编码RNA,长度为20-24nt,其参与植物的生长发育,生物胁迫及非生物胁迫
叶片是水稻进行光合作用的主要场所,水稻卷叶可以使叶片更直立从而增加群体透光率。卷叶被认为是水稻理想株型育种中重要的一环,挖掘卷叶基因并将卷叶性状引进到优良的水稻品
全固态锂电池具有能量密度大、循环寿命长、安全性好等优点,有望在电动汽车、轨道交通、储能、航空航天等领域发挥重要应用。固体电解质(固态电解质)材料是固态锂电池的核心材
散货船配载仪所包含的最重要算法之一就是船舶浮态和稳性的计算。为提高计算精度,本文基于船舶的三维型体数据,对存在多个环的横剖面进行了融合来进行稳性计算方法,在保证了
地震时,基岩断层错动诱发近断层隧道结构变形破坏,影响隧道安全运行和正常使用,而相关隧道破坏机制和设防措施缺少系统研究。本文基于正断层错动诱发上覆砂土层中隧道变形破
浅层气广泛存在于我国东海和南海陆架片区。在波浪荷载作用下,含气沉积物海床土体的孔隙水压力产生振荡并增长,海床土体的有效应力降低,波浪荷载甚至会诱导海床发生液化、结
我国民用建筑能耗占我国总能耗呈逐年增加的趋势,暖通空调能耗占民用建筑总能耗的50%以上,其中非透明外围护结构传热能耗是暖通空调能耗中重要的组成部分。太阳辐射强度是影