面向P2P网络的分布式Web Crawler的研究

来源 :东北大学 | 被引量 : 1次 | 上传用户：c1074527

【摘要】

：

搜索引擎技术和P2P技术是当前科研院所、公司争相研究的热点。随着Web信息的急速膨胀,各项与Web相关的服务也随之增多了。在这种情境下,搜索引擎作为个网络用户所需的信息检

【作者】

：

马晶

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2010年01期

【关键词】

：

P2P网络搜索引擎分布式 Web Crawler P2P路由算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索引擎技术和P2P技术是当前科研院所、公司争相研究的热点。随着Web信息的急速膨胀,各项与Web相关的服务也随之增多了。在这种情境下,搜索引擎作为个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。网络爬虫是搜索引擎的最重要的组成部分,而目前的大部分可用的抓取系统都是基于中央服务器模型的,此种类型的系统不但要用到大量的硬件资源,而且只能搜索到部分Web信息。P2P的分布式网络结构具有可扩展性、健壮性、负载均衡等特点,它的网络拓扑结构更适合于分布式信息检索的处理。P2P技术使用户能够深度搜索文档,且这种搜索不需通过Web服务器,也不受信息文档和宿主设备的限制,并能够达到传统搜索引擎(只能搜索到20%-30%的网络资源)无可比拟的深度。可以说,P2P为互联网上的Web信息搜索,提供了全新的方法与思路,并可能成为下一代搜索引擎的开发技术。本文针对目前传统搜索引擎系统中网络爬虫体系所存在的问题进行了研究,即这类网络爬虫都利用一个中心化的调度器负责各节点问的任务分配和结果收集等工作,在此基础上,提出了一种较好的面向P2P网络的分布式Web Crawler架构,它是一个全分布式的和无中心化的Web Crawler体系,并在此设计中,还可以利用DHT来实现URL重复性和网页内容重复性的检测工作。随后,根据该架构设计了对应的Web Crawler系统。该系统利用P2P搜索引擎的拓扑结构,使全分布式的Web Crawler工作在P2P网络环境下。每个Web Crawler对应P2P拓扑结构中的一个节点,并利用其来收集P2P环境下的外部页面数据。进行的实验模拟,验证了此方案的可行性。此系统的实现,不仅可以解决传统搜索引擎的单点失败及可扩展性等方面的问题,而且也能够满足用户对个性化信息搜索的需求,使得在不断提高用户满意度方面具有重要意义。最后,对面向P2P模式的分布式Web Crawler系统进行了综合测试。实验结果表明,本文所实现的系统能够正确获取所需要的信息,并且可以根据用户的设置来完成对用户的推荐工作,而且可以很好的适应用户频繁加入离开网络的情况。

其他文献

汉语情感问题分析和比较类型情感问答方法的研究

传统问答系统的研究主要是针对事实问题,目前国内外对于情感问题的研究还很少见。所谓情感问题就是指询问他人、群体或者组织对某个话题或者事件的意见、情感、态度和评论等

学位

汉语情感问题问题分类比较类型情感问答汉语比较句条件随机场模型

属性基加密的研究与应用

Shamir于1979年首次提出身份基加密的概念,随后众多身份基加密的扩展概念被提出,比如层次化身份基加密,身份基广播加密,空间加密等。属性基加密也是身份基加密的一种扩展。现

学位

可调频率的微处理器性能预测模型研究与实现

随着半导体工艺的发展,微处理器结构的复杂度也越来越高。其中,在提高系统性能的同时,保证系统的稳定性和有效性成为了设计的重点。动态电压频率调节(DVFS)的技术可以动态的

学位

可调频率性能模型微处理器缓存失效

基于嵌入式Web Server的SVC实时控制器的设计与实现

随着计算机技术和微电子技术的迅猛发展,使得Internet已经成为社会发展中最重要的基础设施之一。Internet的普及与发展使得物网时代已经走进了人们的日常生活,同时也为工业控制信息的共享提供了有力的网络保障。另一方面,国民经济的迅猛发展,电力网负荷急剧增大,感性无功也与日俱增。结合无功补偿与Internet信息共享,构建一个基于Web Server的静态无功补偿(SVC, Static Var

学位

Web ServerSVC实时控制器事件处理模式消息处理模式

再设计互联网中基于IPv6的特征分析及其演化预测

随着IP业务的迅速增长以及IP网络上应用的不断增加,原有的互联网越来越显得力不从心,互联网技术进入再设计阶段。现有互联网的可扩展性、安全性、可控可管及端到端问题等,都

学位

再设计互联网IPv6拓扑演化分析互联网演化成熟度系数演化预测

基于弥散张量的脑白质纤维跟踪算法的研究与实现

大脑中的神经系统是人体中最复杂的系统之一,它承担着传导信息的功能。快速、准确、实时地对脑白质内神经纤维进行描绘,具有很大的意义,但是由于神经纤维结构的错综复杂,传统

学位

纤维跟踪弥散张量脑白质各向异性磁共振弥散张量成像

基于FPGA的CPCI接口数据译码系统设计与实现

基于FPGA的CPCI接口数据译码系统是作为一个通信接收系统的主要组成部分而进行研制的,主要是为了实现信号数据的译码、处理、采集、存储和管理工作。该系统以CPCI总线技术和

学位

数据译码现场可编程门阵列工控机电路设计CPCI接口局部总线

和声搜索算法的改进及在粗糙集约简中应用

优化是人们在科学研究、工程技术和经济管理等诸多领域中经常碰到的问题。其目的是找到使目标函数达到最小或最大的条件。已有的许多优化方法在处理人们所面对的复杂问题时,

学位

和声搜索算法粗糙集属性约简决策全局最优

带有扩散系数的扩散曲线生成方法

扩散曲线是一种图像矢量化的新方法,它可以保留传统位图在色彩上丰富的优点也具有矢量图方便修改,方便存储以及可以任意放大缩小而不失真的优点。是一个比较新颖而又具有实际

学位

扩散曲线扩散系数各向异性扩散反问题参数确定PM方程

灵长类动物脑机交互计算标准化平台的设计与实现

脑机接口是在人脑与外界环境之间建立不依赖于常规脊髓与外围神经的通讯系统,从而实现脑与外设的直接互联,这种新型的交互方式又可称为脑机交互。脑机交互研究具有复杂的交叉

学位

脑机接口神经解码科学工作流分布式计算

面向P2P网络的分布式Web Crawler的研究

其他学术论文