基于Hadoop的分布式搜索引擎的研究及实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:sdqzdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
今天互联网已经发展到了大众普遍参与的时代,人们使用网络的方式愈发多样,发布信息也愈发方便,这使得网络中充斥着海量的数据。怎样对这些海量数据进行索引和检索是目前搜索引擎研究的重点。显然,集中式索引已经无法满足当前大数据环境下的要求。为此,人们将分布式技术与索引技术进行结合,实现了分布式索引和检索。在分布式索引中采用怎样的索引策略对索引和检索的效率起到了关键性的影响,因此索引策略具有重要的研究价值。搜索引擎会获取到各种各样的数据,当用户搜索时,会检索出大量的结果页面。如何将搜索结果中的网页按照其重要程度进行排序,使得相对于用户查询最重要的网页排到输出结果的最前面,节省用户查找信息的时间是一项很有意义的研究工作。因此从上述角度考虑,本文对分布式索引策略和链接排序算法进行了研究。主要做了如下工作:1.对分布式搜索引擎相关理论进行了学习研究,重点对分布式的索引策略进行了研究,包括局部索引策略和全局索引策略,提出了基于Map Reduce和DHT的混合索引策略,并对Map Reduce下的实现原理和流程进行了说明。2.对链接分析排序算法HITS进行了分析研究,并通过引入超链接关系联合引用度和超链接文本联合相似度,提出了基于链接价值的HITS改进算法—HVHITS算法。通过结合网页信任度和蚁群算法的思想提出了基于反馈的HITS改进策略,并与HVHITS算法结合提出了—FHVHITS算法。3.在对索引、排序等相关理论研究的基础上,基于Hadoop完成了分布式搜索引擎系统的设计与实现。其中,索引及检索模块中对基于Map Reduce和DHT的混合索引策略进行了并行化实现,在链接分析排序模块中通过Map Reduce对FHVHITS算法进行并行化实现。4.在本文最后选取相应的主题及评估方法对分布式搜索引擎系统和HITS改进算法的性能进行了测试和评估。
其他文献
计算机和互联网技术的飞速发展深刻地改变了人们的生活。 虚拟实验室作为将真实世界虚拟化的一个方向,就是指按照实验的要求,在计算机系统中采用面向对象技术、虚拟现实技术
数据挖掘就是通过处理数据库系统中储存的数据来获取未知的、有用的知识的过程,是一个富有无限生机和广阔应用前景的数据智能技术。到目前为止,数据挖掘还不存在一个普遍适用
<正>戏剧大师莎士比亚说,世界是一个大舞台,每个人都扮演一个重要的角色,这确实是百年不变的真理。上世纪八十年代,我国社会意识打破了思想禁锢之后,在电视屏幕上出现了"主持
广义系统是一类有着广泛实际背景的控制系统,近年来对广义系统的研究有了迅速的发展,然而,目前不论是理论研究还是方法设计几乎都集中在奇异矩阵是方阵且分解式是标准分解的
两相/多相流动体系广泛地存在于自然界和工业过程中,其流动参数的准确测量,一直是工程技术和科学研究领域急需解决而迄今尚未很好解决的研究课题。电阻层析成像(Electrical R
视频运动目标的检测技术是智能视频监控技术研究领域的一项重要内容,其检测性能的好坏直接影响对视频监控系统性能优劣的评估。如何改善视频运动目标的检测性能,已成为改善智能
码率控制在视频编码中起着重要的作用,其目的是在有限的带宽下获得高质量的视频并保证输出视频流的稳定性。分层B帧预测(HBP,Hierarchical BPrediction)结构因为具有较高的编码性