基于网格技术的Web信息采集系统

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:rongxiaokun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展和广泛普及导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。 搜索引擎是一种用于帮助因特网用户查询信息的搜索工具。一个高效的采集系统是一个好的搜索引擎的重要基础。大型搜索引擎都是采用基于集群的分布式采集系统。但是随着信息量的爆炸式增长,搜索引擎需要越来越多的计算资源、存储资源,并且维护一个庞大的集群系统是耗费巨大的。 本文提出把网格技术和搜索引擎技术结合起来,将互联网上大量闲置的资源利用起来,以满足我们的需要。网格被视为21世纪的新型网络基础架构以及未来10年中IT商业应用的主流。网格利用互联网把分散在不同地理位置的计算机组织成一台“虚拟的超级计算机”,实现计算资源、存储资源、信息资源、软件资源、通信资源、知识资源、专家资源等的全面连通与共享。 本文首先论述了Web信息采集的基本原理,关键技术和系统结构,并分析和研究了开源搜索引擎Nutch项目。接着简单介绍了网格概念,分析比较了五层沙漏结构和OGSA架构,并详细介绍了主流的网格开发软件平台Globus。随后提出一个基于网格技术的Web信息采集系统,分析和研究了基于网格技术的Web信息采集系统的组成结构和各部分的主要功能,并详细地探讨了Web信息采集几个关键技术问题的解决方法。最后实现了一个具有服务发现和监视,数据可靠传输,资源协同分配,分布式采集等功能的网格Web信息采集原型系统,并阐明了Web服务资源的编程、通知机制和各服务模块的实现过程。该系统构建在G10bus最新的技术规范WSRF及其具体实现GT4基础上。 论文的研究和实现工作是当前网格技术研究的一个新课题,为相关研究提供了一些新的思想和方案。
其他文献
随着模式识别、人工智能和机器学习等领域研究的不断深入,传统的基于模式特征向量和距离、类似度等测量的统计分类和识别方法已经不能有效解决一些复杂问题的分类和识别。研究
目前,在医疗行业中,较普遍使用的理疗设备都采用的是单机操作模式,一台控制器独立控制一台理疗设备,给医院医护人员的使用带来不便。根据开发公司的要求,开发设计既能够具备联网能
目前为止电脑围棋仍是人工智能领域中的一大难题,虽然人们不断的研究,但电脑围棋的水平仍然很低,甚至还达不到低段位职业棋手的水平。围棋是同类游戏中最有挑战性的。因此电脑围
随着嵌入式系统、IP网和移动网3G/4G的技术发展,基于嵌入式系统的电子商务将成为我们日常生活的重要组成部分,具有巨大的产业前景。目前,基于嵌入式系统的电子商务技术还刚处于
随着互联网的迅速普及和相关技术的快速发展,互联网在人们的工作和生活过程中占据着越来越重要的位置,同时网络安全问题也变得越来越严重,网络安全事件的爆发频率逐年上升,其
网格计算就是指通过高速网络把分散在各处的硬件、软件、信息资源连接成一个巨大的整体,从而使得人们能够利用地理上分散于各处的资源,完成各种大规模的、复杂的计算和数据处理
随着计算机及互联网络技术的迅速发展,网上文本的数量成指数级增长,如何帮助用户高效准确地从这些海量信息中获取有用的信息是当前迫切需要解决的问题。因此,Web文本信息检索成
随着云计算技术的普及和流行,Hadoop系统成为更多用户处理大批量数据的选择。在Hadoop系统中,资源管理问题一直是该领域的研究热点问题之一。有效的资源管理,通过对资源的合
自然界中存在的大量复杂系统都可以通过复杂网络加以描述,而社团结构是继小世界特性和无标度特性之后发现的最为重要的复杂网络特性。社团是网络中关联紧密的一群节点,往往具
随着嵌入式技术的发展,嵌入式应用的不断增长以及嵌入式系统复杂性不断提高,要求嵌入式软件的规模和复杂性也不断提高,嵌入式软件的质量和开发周期对产品的最终质量和上市时间起