论文部分内容阅读
搜索引擎技术和P2P技术是当前科研院所、公司争相研究的热点。随着Web信息的急速膨胀,各项与Web相关的服务也随之增多了。在这种情境下,搜索引擎作为个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。网络爬虫是搜索引擎的最重要的组成部分,而目前的大部分可用的抓取系统都是基于中央服务器模型的,此种类型的系统不但要用到大量的硬件资源,而且只能搜索到部分Web信息。P2P的分布式网络结构具有可扩展性、健壮性、负载均衡等特点,它的网络拓扑结构更适合于分布式信息检索的处理。P2P技术使用户能够深度搜索文档,且这种搜索不需通过Web服务器,也不受信息文档和宿主设备的限制,并能够达到传统搜索引擎(只能搜索到20%-30%的网络资源)无可比拟的深度。可以说,P2P为互联网上的Web信息搜索,提供了全新的方法与思路,并可能成为下一代搜索引擎的开发技术。本文针对目前传统搜索引擎系统中网络爬虫体系所存在的问题进行了研究,即这类网络爬虫都利用一个中心化的调度器负责各节点问的任务分配和结果收集等工作,在此基础上,提出了一种较好的面向P2P网络的分布式Web Crawler架构,它是一个全分布式的和无中心化的Web Crawler体系,并在此设计中,还可以利用DHT来实现URL重复性和网页内容重复性的检测工作。随后,根据该架构设计了对应的Web Crawler系统。该系统利用P2P搜索引擎的拓扑结构,使全分布式的Web Crawler工作在P2P网络环境下。每个Web Crawler对应P2P拓扑结构中的一个节点,并利用其来收集P2P环境下的外部页面数据。进行的实验模拟,验证了此方案的可行性。此系统的实现,不仅可以解决传统搜索引擎的单点失败及可扩展性等方面的问题,而且也能够满足用户对个性化信息搜索的需求,使得在不断提高用户满意度方面具有重要意义。最后,对面向P2P模式的分布式Web Crawler系统进行了综合测试。实验结果表明,本文所实现的系统能够正确获取所需要的信息,并且可以根据用户的设置来完成对用户的推荐工作,而且可以很好的适应用户频繁加入离开网络的情况。