一种增量式并行Web信息采集系统

来源 :暨南大学 | 被引量 : 0次 | 上传用户:Bo_Gao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息。为此,本文展开了对Web信息的并行采集研究。根据国内外在信息采集领域的长期发展以及并行采集技术的研究,本文在综述了基本情况后提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取JAVA语言中最新的特性,独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断的提供下载源,而指纹判别算法适当的保证了并行采集过程中的同步,有效的去除了冗余。最后,对该系统做了测试,实验证明,该系统能有效的提高信息采集性能。
其他文献
本文对噪音条件下的语音识别进行三个方面的实验研究,提出适合在噪音条件下进行识别的算法。针对通常谱熵法只能在15dB环境下工作的特点,本文提出谱平坦度法,可以在0dB的恶劣环
边缘提取对图像处理的其他方面例如图像分割、纹理分析、物体模式识别等有重要的意义。传统常用的边缘提取方法是面向局部信息的,这些方法的主要优点是简单易用,效果直观。但是
随着Internet技术与多媒体技术的飞速发展,多媒体通信逐渐成为人们进行信息交流的重要手段,人们可以通过网络交流各种信息,进行网上贸易等。由于图像信息相比其他信息具有直
随着计算机网络技术的迅猛发展和广泛应用,特别是Internet的快速普及,促进了计算机与互联网科技的不断创新与升级。网络设施和资源对于国家企业和个人的重要性在日益增强,它在不
随着计算机技术,特别是Internet技术的发展,在许多行业、单位或机构部门内部都逐步实现了业务、信息的计算机化管理。但是各个机构、单位或部门内部由于业务和功能归属不同,因此
随着计算机网络在我国的日益普及,基于网络的应用日益丰富,网络管理工作也显得越来越重要。网络管理的内容十分丰富,有故障管理、计费管理、配置管理、性能管理、安全管理5
随着科技的不断发展,互联网中的视频数据呈指数增长,视频数据已经成为人们获取信息的重要来源之一。在需要大量人机交互的领域中获取的人脸信息更为人们所关注,如何通过这些人脸
随着Internet的发展和网络服务商业化进程的加快,Internet的规模和复杂程度都在迅速增长。从管理的角度讲,Internet是由成千上万的自治系统(Autonomous System简称AS)组成,这
实施管理信息系统是企业信息化建设的一个重要措施,然而,传统管理信息系统已经不能满足目前企业的需求。企业的模式在逐渐的由层次职能型转变为流程管理型,企业业务流程经常
集数据采集、处理及通信于一体的无线集成传感器网络以其低廉的价格、便利的展开方式正得到越来越广泛的使用,对传感器网络各个方面的研究也成为目前学术界非常活跃的课题。而