【摘 要】
:
由于维数灾难,高维空间的最近邻查询效率十分低下。而作为一种众所周知的解决方案,局部敏感哈希能够以常数的概率在亚线性时间内回答近似最近邻查询问题。但是,现有的粗粒度索引结构无法准确地估计候选点和查询点的距离,这会使得算法检测了大量不必要的候选点,继而降低了查询过程的性能。相比之下,本文提出了一种快速准确的基于内存的局部敏感哈希框架,称为中枢测度局部敏感哈希方案(Pivot Metric Locali
论文部分内容阅读
由于维数灾难,高维空间的最近邻查询效率十分低下。而作为一种众所周知的解决方案,局部敏感哈希能够以常数的概率在亚线性时间内回答近似最近邻查询问题。但是,现有的粗粒度索引结构无法准确地估计候选点和查询点的距离,这会使得算法检测了大量不必要的候选点,继而降低了查询过程的性能。相比之下,本文提出了一种快速准确的基于内存的局部敏感哈希框架,称为中枢测度局部敏感哈希方案(Pivot Metric Locality-Sensitive Hashing,PM-LSH),该框架旨在在大规模高维数据集上计算近似近邻查询结果。首先,PM-LSH采用简单而有效的中枢测度树(Pivot Metric Tree,PM树)来索引数据点。其次,PM-LSH使出了可调的置信区间,以实现准确的距离估计并确保高候选点质量。第三,本方案基于PM树提出了一种有效的查询策略,以提高近似近邻查询的性能。另外,本文使用局部敏感哈希来解决高维空间中的最大内积查询问题。由于内积不是测度,这使得局部敏感哈希方法无法直接处理最大内积查询问题,因此需要首先采用一种新的非对称变换函数将余弦空间下的最大内积查询问题转换为近似最近邻查询问题,并消除了现有变换函数中存在的一些问题。然后,本文提出一个高效的查询框架,称为全局多桶探测(Global Multi-Probing,GMP),以回答转换后的近似最近邻查询问题。最后,本文为GMP开发了一种新颖的自适应提前终止条件,它可以自适应地为每个查询点判断查询该在何处终止。为了验证本文提出的两种算法PM-LSH和GMP的性能。本文选取了解决这两类问题的共十个相关算法,在11个常用真实数据集上对比它们的效率和准确性。大量的基于真实数据的实验证明,分别在最近邻查询和最大内积查询问题的效率和准确性方面,PM-LSH和GMP的性能均优于现有算法。
其他文献
活体光学分子成像不仅可以长时程在体追踪细胞的迁移、聚集和接触等动态行为,还可以直观地呈现细胞内分子信号的动态变化,为在体研究细胞功能提供有力的工具。肿瘤免疫疗法利用免疫系统可以识别并清除肿瘤这一特性来治疗肿瘤,在临床上表现出独特的优势。细胞毒性T淋巴细胞(cytotoxic T lymphocytes,CTL)是免疫系统中杀伤肿瘤细胞的主要效应细胞,在清除肿瘤过程中发挥着关键作用。肝脏作为一个具有
大学英语教科书是培养跨文化交际力和实现跨文化理解的重要载体。大学英语教科书如何阐释和建构他者,对塑造大学生的他者文化观,引导大学生如何看待他者,与他人相处,形成跨文化理解力具有不可替代的作用。研究大学英语教科书中的“他者”变迁不仅有利于推进批判教科书研究中有关“他者问题”重要议题的研究,对认清大学英语教科书中的他者内涵,理解大学英语教科书文化变迁的本质,改进大学英语教科书文化选编现实,实现大学英语
数据规模的迅速增长和数据特征的多样化使得数据分析高速发展,也使得数据分析需要处理的对象越来越复杂,进而需要更多的变量特征来描述这些复杂的对象,也就产生了高维数据.在高维问题中,财务经费和伦理道德等原因又使得观测样本量往往远小于高维数据的特征维数,而且普遍存在于医学、生物遗传学、军事学等众多领域.本文研究小样本下高维线性回归模型中的变量选择问题和模型预测能力.利用传统的变量选择方法SCAD(the
载体材料的安全性是纳米药物首要考虑的问题。蛋白基纳米载药系统具有生物相容性好、生物可降解、无毒等特点,在研究和临床应用中引起了广泛关注。nab(nanoparticle albumin-bound)技术是目前制备蛋白基纳米载体最成功的技术,采用该技术生产的白蛋白结合型紫杉醇注射液Abraxane?自2005年批准上市后获得了巨大成功。然而,nab技术具有工艺流程复杂、生产能耗高、引入有毒有机溶剂等
太赫兹波具备能量低、频谱宽、穿透性强以及特异性吸收等诸多优点,因此太赫兹频谱技术被广泛地应用于物质的分析与检测中。另一方面,机器学习方法具有无人工干预、自动化与规模化的优势。在机器学习的推动下,太赫兹频谱技术中的数据分析能力和应用范围得到了显著提升。但是在面对无标注类型的太赫兹频谱数据时,常用的机器学习方法受到了一定的限制。本论文将无监督机器学习领域中的因子分析法和独立成分分析法进行了扩展,使其适
随机过程是概率论的一个重要研究领域,对一些随机现象的刻画,需要用随机过程来研究.随着科学技术的发展与完善,随机过程理论广泛应用在物理、生物、经济、管理、工程技术等众多领域,同时这些领域的需求也促进了随机过程理论的发展.近年来,很多学者研究了轨道为凸函数的随机过程的性质、不等式以及应用,取得了一系列的结果.本文主要研究了两类凸随机过程及其不等式.在均方连续、均方可微、均方可积的意义下,类比凸函数的思
第一部分PARP1参与新生小鼠心脏再生和心肌细胞增殖背景:成年哺乳动物心脏在受到损伤时不能再生,结果导致瘢痕修复和心脏重塑。而低等脊椎动物如斑马鱼的心脏能够终身保持再生能力,常用作研究心脏再生的动物模型,但是其应用受到种属进化差距较大的影响。最近研究发现新生小鼠心脏也能够再生,这为心脏再生的研究开辟了一条更为方便的道路。PARP1作为一种存在于细胞核内的蛋白修饰酶,其在心脏发育和心肌细胞肥大中都有
该课题组前期从发酵蔬菜中分离并鉴定出一株凝结芽孢杆菌13002,在前人的研究基础上,该研究进行凝结芽孢杆菌发酵乳生产工艺的优化。以凝结芽孢杆菌13002、保加利亚乳杆菌CGMCC 1.290、嗜热链球菌CGMCC 1.2741共发酵的新型发酵乳为研究对象,以不同菌种复配比、菌种接种量、发酵基低聚果糖添加量进行单因素实验,再以感官评分为响应值,通过Box-Behnken中心组合建立数学模型研究发酵乳
器官是高等动物重要的功能单位,对器官结构的研究有利于了解器官的功能,并支持相关的疾病研究。利用近年来发展的显微光学成像技术,可以实现器官水平的细胞分辨三维成像。基于高分辨率三维数据,数字切片技术可以实现对完整器官在任意角度获取细胞分辨率的切片。然而,如此高分辨率的成像获取的单套数据可达TB级甚至10 TB以上,给数字切片带来了大数据挑战。现有的数字切片方法工具仅能对GB级数据切片。实现10 TB以
简单液体理论是20世纪后半叶凝聚态物理学所取得的最重要成就之一。在这一理论中,硬球模型和范德瓦耳斯模型抓住了原子或分子间排斥作用在决定液体结构中所发挥的核心作用;相反,吸引作用的效应可以简单地用一个平均场近似来处理,即吸引作用被认为只是提供一个空间均一的背景相互作用以维持液体的稳定,其对液体结构和动力学的影响甚微。然而,越来越多的证据表明,液体中存在一系列复杂现象,吸引作用在这些现象中扮演着重要角