基于局部敏感哈希的近似近邻查询算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:dingz450519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以互联网技术为代表的计算机技术的普及,世界步入了大数据时代。相似性查询是日常生活中是人们获取信息的常见手段,更是大数据时代至关重要的需求。大数据在给人们带来丰富资讯和高质量体验的同时,也对很多传统领域产生了挑战。维度灾难使得基于空间划分和数据划分的索引方式不再能有效解决查询问题,为此研究者提出近似相似性查询的理念,以少量查询精度为代价大大减少查询耗时。局部敏感哈希技术(Locality Sensitive Hashing,LSH)作为近似相似性查询的最新技术,逐渐成为研究热点,其基本思想可以概括为过滤-验证框架(Filter-and-Refine Framework),即先过滤掉低概率相似的数据对象,然后精确计算候选数据对象和查询项之间的相似度,这就大大减少了查询所需的精确计算,从而可以快速得出查询结果。局部敏感哈希使用大量哈希表以高概率保证计算的准确性,这造成了基于LSH的算法空间开销过大的缺陷。本文提出一种分布式和集中式的LSH近似近邻查找算法,即基于Multi-probe的分布式LSH近似近邻查找方案和基于海明距离的LSH近似近邻查找算法。分布式方案侧重于通过Multi-probe技术,在Chord环上构建分布式索引的方法,在保证召回率的情况下显著减少哈希表数量;集中式算法利用哈希结果产生的特征指纹,用随机抽取的方式产生指纹子串并构建索引表,通过比较查询项和数据项的项指纹子串的海明距离,对数据项赋予权值以减少候选数据集大小。总之,通过分布式和集中式两种方法,分别对应不同的应用背景,在减少哈希表占用空间过大的同时,有效地提高了近邻查找的性能。
其他文献
移动Ad hoc网络是一种特殊的新型无线移动网络,它的节点具有移动性,而且它把移动通信和计算机网络结合在一起,能够快速部署,运行时不依赖基站一类的固定通信设施,网络节点是
实现光声显微成像的亚波长超高分辨率是图像处理领域中超分辨率技术的重要研究目标,也是当前诸多学者关注的热点。本文的研究工作集中于光声显微成像的亚波长超高分辨率关键技
针对当前我国电力线通信的现状和特点,结合电力线远程抄表系统的网络结构,设计了能够实现电力线载波自动路由搜索的数据传输装置方案。完成了基于PL3105C的数据传输装置硬件电路制作,实现了数据传输装置主要的软件功能,并在分析电力线现有协议的基础上,给出了可选路由协议的基本框架,建立了电力线通信路由模型。在点对点通信失败的情况下,该模型可实现路由自动搜索,能够适应电力线信道时变的特性,保证了数据的有效传
角度测量是计量科学的重要组成部分,特别是微小角度的测量,在精密加工、航天航空、军事和通讯等许多领域都具有极其重要的意义和作用。角度测量的方法多是根据自准直原理,通
本多媒体电话机主要为了弥补普通固定电话机交流形式单一的不足,对固定电话机终端进行改进,在普通固定电话机上增加液晶显示功能、图文传输功能和书写功能。利用数字信号处理
期刊
利用声纳目标模拟器对装艇之前的声纳系统进行性能测试是一项必不可少的措施,基于此,本文对海洋中的目标、海洋环境噪声、本地噪声和混响模块进行建模从而搭建水声环境平台。
期刊
近年来,随着多媒体和网络技术的发展,各种信息采集的手段日益增多,例如数码相机、摄像机的广泛使用,使视频信息的来源不断扩大。同时,由于视频信息具有直观、高效、广泛等特
随着科技、经济水平的进步和国家对公共健康事业的不断重视,医学影像检查已经逐渐普及。通过计算机自动提取医学影像中精确、可重复的医学信息,辅助医生做出诊断是完全必要的