大规模专题信息采集系统的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:tkxj501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通信技术的进步,网络的发展,各个领域与互联网的联系越来越紧密。一方面,行业对信息的需求量越来越大,越来越专业,希望从搜索引擎返回的尽量是领域相关的信息:另外一方面,任何用户都可以在随意发布信息,信息覆盖的范围也越来越广,通用搜索引擎在面对着专业领域的检索需求时,返回过多的无用结果。针对这种情况,本文提出并实现了大规模专题信息采集系统,在给定特定主题的训练文本的情况下,该系统能够专注于采集主题相关的网页。本文的主要研究工作包括: 专题采集技术的实现。本文在研究相关工作的基础上,总结出实现专题信息采集系统就是要解决主题识别和主题预测两个问题。首先,引入文本分类相关技术,利用简单贝叶斯分类器对主题相关网页和主题不相关网页进行分类;然后,在这个基础上,把链接分为指向主题相关网页的链接和指向非主题相关网页的链接,并对链接及其周边的信息,比如链接的锚文本、相邻链接的锚文本,进行学习和统计,实现一个链接分类器。最后,利用链接分类器在抓取网页之前判断网页是否属于主题相关网页,是否需要进行采集。 大规模专题采集的设计与实现。在开源项目。Hadoop Framework和Nutch的基础上,实现了大规模专题信息采集系统。采集系统包括一个负责任务分配的主节点和多个负责抓取、解析和存储网页的工作节点。在信息采集过程中,主节点和工作节点利用心跳信息进行交互,实现并行采集。主节点把采集任务按照工作节点的数目分成多个子任务,放到一个先进先出队列里面;工作节点在发往主节点的心跳信息中,告知主节点自己的工作状态。如果主节点发现任务队列非空并且工作节点处于空闲状态,就为该工作节点分配任务;工作节点在接受到任务后,则马上开始执行相关工作,并继续通过心跳信息向主节点报告任务执行进度。 采集系统的改进和优化。在Nutch的基础上,对选择策略、更新算法、指纹算法等进行改进,提高了采集系统的性能。
其他文献
企业应用一般都由大量运行在不同操作系统,多个层面上的应用系统组成。企业应用系统是否能快速适应商务逻辑的变动,已经是企业获得成功的关键所在。面向服务的架构(SOA)具有动
随着移动增值业务的不断丰富,移动增值业务系统应该朝着综合统一的方向发展,为SP/CP提供统一的业务接入手段;对各种增值业务进行统一管理、统一控制、综合计费;为未来3G网络中各
随着网络技术的发展和网络应用的日益增加,信息安全问题日益凸现。当前信息安全技术主要包括密码技术、身份认证、访问控制、入侵检测、风险分析与评估等诸多方面。在实际应用
近年来,随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的容量正以惊人的速度增长。无论是军用还是民用设备,每天都会产生容量相当于数千兆字节的图像,其中包括来源于卫
随着信息技术不断应用于军事领域,现代战争模式正逐渐从机械化模式向信息化模式转换。信息战将是20世纪末到21世纪初军事技术革命的集中体现,作为信息战核心的信息技术正奇迹般
21世纪是信息网络的世界,信息技术和网络空间,给社会的经济、科技、文化、教育和管理的各个方面注入了信息的活力,网络已经成为了人们日常生活不可缺少的一部分。但随着互联网应
随着科学技术的飞速发展,知识呈爆炸式增长,人们需要掌握的知识和技能越来越多,如果继续按照原来的学习方式,势必会落后于社会的发展,被社会所淘汰,因此学习者需要提高自身的学习能
当前,基于Web服务的分布式应用(如电子商务与电子政务)得到了快速的发展,而典型的Web服务正面临着各种新的安全问题,传统的安全保护方法已无法胜任。在服务使用者访问Web服务之