分布式网上信息实时监控和动态采集系统

来源 :南昌大学 | 被引量 : 0次 | 上传用户:ll05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着宽带接入技术的发展,人们通过Internet查询信息变得越来越方便快捷。作为全球最大的信息资源网,Internet为人们提供了取之不尽用之不竭的信息资源。IE的WWW浏览器为人们在网上搜索信息提供了方便,但它采用的是一种人工操作方式,无法实现实时动态自动获取信息。在一些大中型企业、新闻机构、政府部门以及一些门户网站等,都很需要实现一种功能,即由计算机实时动态采集网上信息,并对所采集的信息进行审核处理。为此,我们提出了网上信息实时动态采集系统这一课题。 系统建立在分布式多线程体系结构上,采用先进的结构化多模块组合设计,使得在Internet这种大数据量、大访问量的环境下,系统保持高速、稳定,以满足用户对许多个网站同时实时动态采集的要求。整个系统由监控子系统、采集子系统、分析审核子系统、高级检索子系统和管理子系统等组成。系统可以灵活地配置为集中式或分布式方式,在用户所监控采集的信息量不大的场合下,可以采用集中式方式,即所有子系统运行在同一台联入Internet的机器上,同时完成监控、采集和审核处理工作;在用户所动态采集的信息量较大的场合下,可以采用分布式方式,其中监控子系统和采集子系统运行在一台或多台联入Internet的前台机上,完成信息的监控采集工作,而审核处理子系统、高级检索子系统等则运行在后台服务器上,处理来自前台机的信息。 本系统对各类企事业单位进行网上信息的收集利用提供了一个高效的手段,如政府管理部门可以利用这一功能对互联网上信息进行实时监控;新闻媒体可用它实时收集一些热门网站的动态新闻;企业对与其同类产品的价格的采集等。因此,本系统具有较好的推广应用前景。
其他文献
本文使用语言学中的标志词假设来指导汉英翻译单元的抽耿,取得了较好的抽取效果。本文从以下三个角度对标志词在汉英EBMT中的应用进行了研究:1.在介绍了目前已经使用的英语
数字签名是信息安全领域的一个重要的研究方向。数字签名能保证报文的真实性、完整性以及签名者的不可否认性。普通的数字签名具有局限性,一旦密钥被盗,攻击者就可以伪造签名
针对近年来地理信息系统(GIS,Geographic Information System)在公共管理,科学研究和商业等领域的应用现状和配电管理的实际需求,本文以配电网GIS系统的开发为背景,根据配网管理自身的特点,讨论了适合于配电网络的空间数据组织方式,重点研究了适合配电网GIS系统的空间索引结构。 随着GIS在各个领域的广泛应用,GIS已形成了多层次和不同尺度的应用格局。既要有综合型的通
本文在项目反应理论(IRT)框架下,就目前流行的参数估计方法进行分析比较;对IRT中3PLM的参数估计问题,用传统的统计估计方法解决得并不令人满意,我们应用新的估计方法——改进
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的基
分布式数据库系统是数据库系统与计算机网络相结合的产物,它主要研究在计算机网络上如何进行数据的分布和处理。对于查询操作,若是在分布式环境中,由于查询涉及的关系通常被
随着网络系统的规模扩大,网络的异构性、应用的广泛性和复杂性,以及网络服务等方面的增长,网络系统的有效管理变得越来越重要,也越来越困难。就网络系统的故障管理功能而言,管理者
我们现在生活在一个网络化的新时代,通信、计算机和网络技术正改变着整个人类和社会。目前大多数分类算法适用于集中式环境,当伴随着大量的数据集、用户和系统上的地理分布时
在科技日新月异的时代,随着互联网在全世界的普及,人们获取信息的途径已经从传统媒体,如报刊、杂志、电视、广播等途径转变为网站、论坛、博客等。特别是伴随着Web2.0时代的到来
互联网和科学研究的高速发展,导致可利用的信息资源数量急剧增加,为了有效的组织利用这些资源,迫切需要对它们进行分类。这些信息中的大多数是以文本的形式表示,因而对文本自