面向DEEPWEB挖掘网络爬虫设计和实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sue001002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上信息量的迅速增长,搜索引擎已经成为人们检索网上信息的主要手段,是互联网上人们获取信息最重要的方式之一。网络爬虫作为搜索引擎中负责采集信息的模块,有重要的作用。  由于互联网具有信息数量大、更新和增长速度快的特点,而且随着Web的发展,越来越多的数据可以通过表单提交来获取。这些表单提交所产生信息是由DeepWeb后台数据库动态产生的。在这种情况下,信息集成就更加需要网路爬虫来自动获取这些页面以进一步地处理数据。因此搜索引擎需要一个功能强大,工作高效的网络爬虫为其采集信息,使其能够为用户提供全面、及时的查询结果。  为了满足以上需要,本文提出一种用于搜集DeepWeb页面的网络爬虫的设计方法。首先,运用启发式规则来筛选目标表单并提取标签。其次,对表单进行建模。最后,通过分析表单模型将属性的值填入表单控件,完成填充。本文主要研究内容如下:  (1)分析系统结构中各个模块需要完成的任务,给出各个模块的设计思想和实现策略,设计并实现DeepWeb网络爬虫。  (2)对网页表单建立特征四元组模型,自动生成查询词。  (3)通过实际测试检验DeepWeb网络爬虫工作效率和其有效性。(4)展望未来的发展方向,分析现有系统存在的问题。  通过实验表明,本文所做的研究内容能够有效提高网络爬虫的性能,实现了挖掘DeepWeb内容要求,较好地完成预定目标,达到了预期效果。
其他文献
移动无线自组网(MobileAdHocNetwork,MANET)是一项具有广阔应用前景的新技术,它能运用在军事以及日常生活中许多方面,如国防战备、抢险救灾、应对突发事件等无法得到有线网络支
图像超分辨率重建是指从一幅或者多幅低分辨率(LR)图像重建出高分辨率(HR)图像的过程。该技术在气象遥感、医学成像、安全监控、多媒体通讯、数字娱乐等领域有着广泛的应用前
SOA(Service Oriented Architecture)是由IBM, Microsoft等软件公司倡导的一种新型的企业级系统架构,2005召开了第一届SOA年度大会。SOA引起了越来越多人们的关注。SOA强调业
文本过滤是从动态的文档流中,检索出符合用户需求文本的一种技术。随着文本过滤技术在电子邮件、消息订阅、信息安全等领域的应用变得越加广泛,用户对过滤的要求也越来越高。为
图像和视频是人类可以利用的最主要的信息载体。互联网的发展和多媒体的进步使得多媒体的各种新的应用和服务成为可能,尽管互联网的带宽和设备的存储容量都有所提高,但是数字
模型检测是公认的一种比较有效的验证系统正确性和可靠性的方法。在一些安全至关重要的领域检测预知系统的响应时间、事件调度的延迟等一系列的参数尤为重要。实际上大部分的
闪存是一种新型的电可擦除可编程只读存储器,具有非易失、读写速度快、抗震性能好、低功耗、体积小等特性。随着闪存容量的不断增加和价格的逐渐下降,闪存相对于传统机械硬盘具
随着计算机技术和网络通信技术的高速发展,以并发性、分布性、实时性、异构性和互操作性等主要特征的并发分布式系统已成为计算机技术的主流方向。并发现象以其固有的复杂性,
海豚是一种高智商的水生哺乳动物,它们使用自己独特的“语言”——哨声来进行互相交流。要想理解海豚的语言,就必须要对海豚哨声进行分析研究。当前对海豚哨声的分析研究大多是
随着计算机软硬件系统规模的日益复杂化、重要化,如何保证计算机系统的正确性和可靠性,逐渐成为当前理论界和产业界共同关心的重要问题。长期以来,常用的系统设计检验方法是以经