近似最近邻检索的多哈希表索引及优化

来源 :大连海事大学 | 被引量 : 0次 | 上传用户：feifeifo123

【摘要】

：

【作者】

：

苗建辉

【出处】

：

大连海事大学

【发表日期】

：

2019年01期

【关键词】

：

高维数据最近邻检索多表索引比特位权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

最近邻检索是计算机视觉、数据挖掘、机器学习等领域的一个基本问题。随着互联网数据的爆炸性增长,海量高维数据的最近邻检索问题已成为挑战。传统的基于树形结构的最近邻检索方法在面对海量高维数据时表现乏力,而基于哈希表示的最近邻检索方法凭借其高效的压缩存储和快速的检索速度,已经成为解决海量高维数据相似性搜索问题最有效的方法之一。但是,哈希表示的最近邻检索方法存在两个问题:第一是数据通常会被多个哈希函数映射为比特码,所以不同的哈希函数会生成质量不等的比特位,而在大多数场景下,这些比特位是被同等对待的;第二是在数据规模特别大时,原本采用线性扫描的汉明距离计算也不再高效,此时通常会构建哈希表来提高搜索的效率,但是由于长比特码的局限性,传统的单哈希表索引方式已经很难满足对于检索的高效性要求。基于上述哈希表示的最近邻检索方法存在的问题,本文提出HMTable算法和MQRank算法。HMTable是一种性能更好的多哈希表索引结构,用于解决哈希表索引低效的问题,而MQRank是一种结合多表特性的更加细粒度的比特码排序算法。具体地说,由于单哈希表难以满足长比特码的索引要求,因此通常会通过划分比特码来构建多哈希表。因为一些简单朴素的划分方法不能捕获到比特位之间的关系信息,所以构建的多哈希表性能不是很好。本文的HMTable采用分层迭代的方式划分比特码,使得划分的比特码分组更加均匀,从而构建出质量更高的多哈希表;由于汉明距离只是一些离散的整数值,难以准确衡量相同距离下的不同数据点的差别,主要原因在于不同比特位在距离的计算上具有同等的作用。因此,针对比特位一致性问题,本文提出MQRank用于更加细粒度的加权汉明距离计算。MQRank的比特位权重计算综合了近邻点和远邻点对于哈希函数划分能力的影响,同时在各个子表下独立校准权重,使得生成的比特位权重在基于多表的最近邻计算上更加精确。本文在4个公开数据集MNIST、CIFAR1O、SIFT1M和GIST1M上进行实验设计与验证,并在基于多种哈希算法生成的比特码上分别进行多哈希表索引查询与权重优化的实验评价。大量的实验结果表明,本文所提出的方法在近似最近邻检索上具有有效性和通用性。

其他文献

褐煤矿区砂土地基变形及加固特性研究

砂土地基作为一种普遍存在的地基类型,在世界各地广泛分布。由于砂土存在无粘聚力的特点,容易发生失稳、液化等破坏现象,如何处理砂土地基也是岩土工程中较为棘手的问题。德

学位

砂土地基强夯变形特性粒子图像测试技术

蚯蚓对生物质炭性质的影响

近年来,生物质炭作为一类重要的碳质材料,因其生产成本低、对环境友好、改良效果佳,其在土壤中的应用也受到了越来越多的关注。蚯蚓作为土壤中生物量最大的动物类群之一,能够

学位

生物质炭蚯蚓蚯蚓粘液取食过肠理化性质土壤酶土壤微生物群落结构

填筑高度对土石混合体沉降的影响研究

随着基础建设的大规模开展,工程中土石混合体日益增多,且填方高度不断突破,其中以堆石坝发展最为迅猛。填筑体变形控制是保证填方工程安全的关键环节,因而变形计算非常重要。

学位

堆石料填筑体沉降有限元本构模型

利用OsMADS57改善稻瘟病抗性和芽孢杆菌Bam22对油菜根肿病的研究

稻瘟病是水稻的重大病害之一,危害范围广且难以防治,对水稻生产造成严重威胁。MicroRNA(miRNA)作为一类非编码RNA,长度为20-24nt,其参与植物的生长发育,生物胁迫及非生物胁迫

学位

水稻OsMADS57OXOsMADS57稻瘟病菌抗病农艺性状芽孢杆菌Bam22油菜根肿病防治效果

转MYB家族基因水稻卷叶株系的筛选与鉴定

叶片是水稻进行光合作用的主要场所,水稻卷叶可以使叶片更直立从而增加群体透光率。卷叶被认为是水稻理想株型育种中重要的一环,挖掘卷叶基因并将卷叶性状引进到优良的水稻品

学位

水稻卷叶玉米转录因子MYB家族

石榴石结构固体电解质材料的组分设计研究

全固态锂电池具有能量密度大、循环寿命长、安全性好等优点,有望在电动汽车、轨道交通、储能、航空航天等领域发挥重要应用。固体电解质（固态电解质）材料是固态锂电池的核心材

学位

固态锂电池固体电解质材料石榴石元素掺杂离子电导率

稳性计算的多环融合切片法及在配载仪中应用

散货船配载仪所包含的最重要算法之一就是船舶浮态和稳性的计算。为提高计算精度,本文基于船舶的三维型体数据,对存在多个环的横剖面进行了融合来进行稳性计算方法,在保证了

学位

船舶稳性多环融合配载仪多边形裁剪离线计算

正断层错动诱发隧道变形破坏的离心机实验及数值模拟研究

地震时,基岩断层错动诱发近断层隧道结构变形破坏,影响隧道安全运行和正常使用,而相关隧道破坏机制和设防措施缺少系统研究。本文基于正断层错动诱发上覆砂土层中隧道变形破

学位

正断层地表沉降隧道变形破坏设防范围参数分析

波浪作用下砂质含气海床的动力响应特性研究

浅层气广泛存在于我国东海和南海陆架片区。在波浪荷载作用下,含气沉积物海床土体的孔隙水压力产生振荡并增长,海床土体的有效应力降低,波浪荷载甚至会诱导海床发生液化、结

学位

浅层气含气土孔压响应波浪荷载水槽模型试验

晴空指数对夏热冬冷地区民用建筑外墙传热能耗的影响

我国民用建筑能耗占我国总能耗呈逐年增加的趋势,暖通空调能耗占民用建筑总能耗的50%以上,其中非透明外围护结构传热能耗是暖通空调能耗中重要的组成部分。太阳辐射强度是影

学位

供暖季制冷季晴空指数外墙传热能耗

近似最近邻检索的多哈希表索引及优化

其他学术论文