论文部分内容阅读
互联网的迅速发展和广泛普及导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。
搜索引擎是一种用于帮助因特网用户查询信息的搜索工具。一个高效的采集系统是一个好的搜索引擎的重要基础。大型搜索引擎都是采用基于集群的分布式采集系统。但是随着信息量的爆炸式增长,搜索引擎需要越来越多的计算资源、存储资源,并且维护一个庞大的集群系统是耗费巨大的。
本文提出把网格技术和搜索引擎技术结合起来,将互联网上大量闲置的资源利用起来,以满足我们的需要。网格被视为21世纪的新型网络基础架构以及未来10年中IT商业应用的主流。网格利用互联网把分散在不同地理位置的计算机组织成一台“虚拟的超级计算机”,实现计算资源、存储资源、信息资源、软件资源、通信资源、知识资源、专家资源等的全面连通与共享。
本文首先论述了Web信息采集的基本原理,关键技术和系统结构,并分析和研究了开源搜索引擎Nutch项目。接着简单介绍了网格概念,分析比较了五层沙漏结构和OGSA架构,并详细介绍了主流的网格开发软件平台Globus。随后提出一个基于网格技术的Web信息采集系统,分析和研究了基于网格技术的Web信息采集系统的组成结构和各部分的主要功能,并详细地探讨了Web信息采集几个关键技术问题的解决方法。最后实现了一个具有服务发现和监视,数据可靠传输,资源协同分配,分布式采集等功能的网格Web信息采集原型系统,并阐明了Web服务资源的编程、通知机制和各服务模块的实现过程。该系统构建在G10bus最新的技术规范WSRF及其具体实现GT4基础上。
论文的研究和实现工作是当前网格技术研究的一个新课题,为相关研究提供了一些新的思想和方案。