P2P相似搜索中分层索引机制研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:kfk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似搜索已经成为P2P网络研究中的热点问题。M-CAN通过锚点比对的方式将原始数据空间映射到低维向量空间,然后在低维向量空间上进行数据的发布和搜索。但是映射过程会造成信息丢失,从而导致M-CAN相似搜索效率降低。本文提出了一种新的分层索引结构M-CAN*。M-CAN*通过对节点在欧式空间中进行Delaunay三角剖分,形成底层拓扑结构。并且在此基础上设计了分层索引结构来实现启发式路由算法以及提高相似搜索的效率。   本文重点研究了M-CAN*分层索引仿真软件的设计与实现。论文系统地阐述了M-CAN*仿真软件的设计方法与实现技术。该仿真软件基于离散事件队列模拟多节点的加入和退出行为,实现了局部索引树的维护、系统路由、数据发布、范围查询、K近邻查询、节点加入和节点退出等功能。论文详细地介绍了仿真软件中这几个重要模块算法的流程与代码实现。   本文使用该分层索引仿真软件在Corel数据集上测试和分析了M-CAN*的效率。进行范围查询时,在数据的搜全率仍然保持100%的前提下,M-CAN*的节点访问率比M-CAN平均降低了30.2%,数据访问率平均降低了31.3%。进行K近邻查询时,M-CAN*的搜索的半径平均比M-CAN缩小了37.4%,平均节点访问率为M-CAN的43.3%,平均数据访问率为M-CAN的43.8%。实验结果表明M-CAN*相似搜索的效率要高于M-CAN,同时也表明该仿真软件能较好地模拟分层索引系统中节点的行为,可以作为M-CAN*性能评测的工具。
其他文献
随着数字化技术和互联网的发展,各种信息资源迅速膨胀,数据呈现出多样化的新特点。这些多样的数据已不再适合存储在单一的数据模型或传统的关系数据库系统中,因此人们引入一个新
自然语言处理被认为是大数据时代十分关键的技术之一,尤其对于互联网上的“用户生成内容”进行文本分析蕴含着巨大的商业价值。主题模型是一类无监督的文本处理方法,其发展经
随着XML相关标准的推广和应用,各个领域不断涌现出大量的XML文档。如何有效管理大规模XML,文档数据,已经成为当前数据库领域中一个亟待解决的研究课题。基于关系数据库管理XM
学位
当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,
分布式拒绝服务(Distributed denial of service,DDOS)攻击是目前Internet很大的威胁之一。如何才能找出真正的攻击者,即IP追踪问题,成为当前互联网安全领域比较活跃的课题之
近年来,互联网中流媒体的应用愈发广泛,并且已经成为推动宽带应用的主要动力。流媒体的播放耗费了大量的网络资源,并且对网络的带宽要求较高。传统的基于服务器和CDN网络的流
学位
近年来,随着互联网及数字多媒体技术的发展,数字多媒体产品的制作、复制和传输变得方便与快捷。与此同时,它们的版权保护和内容的真实性与完整性检测也成了迫切需要解决的问
本文的研究工作主要分为两个部分:知识编译技术和可能性灵活规划问题。作为自动推理技术的一个方面,知识编译技术是处理命题逻辑知识库常用的一种新技术,知识编译的过程就是
目前,OA系统在各个行业和企业的应用已经相当普及,是人们在办公时使用最多、最频繁的基本系统之一。目前的OA系统多数以.NET或Java技术为基础而开发,普遍存在系统功能全但针
学位
目前,基于因特网的Web应用软件迅速应用到社会的各个领域,同时由于Web应用软件的结构、运行环境和负载等因素的复杂性,Web应用软件的测试比传统软件的测试更复杂,需要进一步