面向DEEPWEB挖掘网络爬虫设计和实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：sue001002

【摘要】

：

随着Internet上信息量的迅速增长，搜索引擎已经成为人们检索网上信息的主要手段，是互联网上人们获取信息最重要的方式之一。网络爬虫作为搜索引擎中负责采集信息的模块，有重要的

【作者】

：

田伟

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

Deep Web页面网络爬虫表单模型启发式规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet上信息量的迅速增长，搜索引擎已经成为人们检索网上信息的主要手段，是互联网上人们获取信息最重要的方式之一。网络爬虫作为搜索引擎中负责采集信息的模块，有重要的作用。　　由于互联网具有信息数量大、更新和增长速度快的特点，而且随着Web的发展,越来越多的数据可以通过表单提交来获取。这些表单提交所产生信息是由DeepWeb后台数据库动态产生的。在这种情况下,信息集成就更加需要网路爬虫来自动获取这些页面以进一步地处理数据。因此搜索引擎需要一个功能强大，工作高效的网络爬虫为其采集信息，使其能够为用户提供全面、及时的查询结果。　　为了满足以上需要，本文提出一种用于搜集DeepWeb页面的网络爬虫的设计方法。首先，运用启发式规则来筛选目标表单并提取标签。其次，对表单进行建模。最后，通过分析表单模型将属性的值填入表单控件，完成填充。本文主要研究内容如下：　　(1)分析系统结构中各个模块需要完成的任务，给出各个模块的设计思想和实现策略，设计并实现DeepWeb网络爬虫。　　(2)对网页表单建立特征四元组模型，自动生成查询词。　　(3)通过实际测试检验DeepWeb网络爬虫工作效率和其有效性。(4)展望未来的发展方向，分析现有系统存在的问题。　　通过实验表明，本文所做的研究内容能够有效提高网络爬虫的性能，实现了挖掘DeepWeb内容要求，较好地完成预定目标，达到了预期效果。

其他文献

无线自组网DSR协议的改进与实现

移动无线自组网(MobileAdHocNetwork，MANET)是一项具有广阔应用前景的新技术，它能运用在军事以及日常生活中许多方面，如国防战备、抢险救灾、应对突发事件等无法得到有线网络支

学位

移动无线自组网DSR协议动态源路由协议NS2仿真数据吞吐量

基于学习的单幅图像超分辨率重建的若干关键问题研究

图像超分辨率重建是指从一幅或者多幅低分辨率(LR)图像重建出高分辨率(HR)图像的过程。该技术在气象遥感、医学成像、安全监控、多媒体通讯、数字娱乐等领域有着广泛的应用前

学位

图像处理超分辨率重建技术稀疏表示近邻嵌入回归方法深度学习

SOA软件体系及其实现研究

SOA(Service Oriented Architecture)是由IBM, Microsoft等软件公司倡导的一种新型的企业级系统架构,2005召开了第一届SOA年度大会。SOA引起了越来越多人们的关注。SOA强调业

学位

面向服务的架构公共对象请求代理架构Web服务简单对象访问协议

基于领域本体的文本过滤模型DOTFM的设计和实现

文本过滤是从动态的文档流中，检索出符合用户需求文本的一种技术。随着文本过滤技术在电子邮件、消息订阅、信息安全等领域的应用变得越加广泛，用户对过滤的要求也越来越高。为

学位

领域本体文本过滤概念权值概念关联度

基于第二代小波的图像与视频压缩的研究

图像和视频是人类可以利用的最主要的信息载体。互联网的发展和多媒体的进步使得多媒体的各种新的应用和服务成为可能,尽管互联网的带宽和设备的存储容量都有所提高,但是数字

学位

小波变换SPIHT图像压缩视频压缩人眼视觉特性

基于BDDs的离散实时时态逻辑RTCTL*的符号化模型检测及证据生成

模型检测是公认的一种比较有效的验证系统正确性和可靠性的方法。在一些安全至关重要的领域检测预知系统的响应时间、事件调度的延迟等一系列的参数尤为重要。实际上大部分的

学位

RTCTL*JDS符号化模型检测BDDs证据生成

CF-HNLBI：一种新的闪存数据库B+树索引

闪存是一种新型的电可擦除可编程只读存储器，具有非易失、读写速度快、抗震性能好、低功耗、体积小等特性。随着闪存容量的不断增加和价格的逐渐下降，闪存相对于传统机械硬盘具

学位

闪存设备数据库系统索引结构

概率进程演算的互模拟分析

随着计算机技术和网络通信技术的高速发展,以并发性、分布性、实时性、异构性和互操作性等主要特征的并发分布式系统已成为计算机技术的主流方向。并发现象以其固有的复杂性,

学位

概率进程演算metirc空间线形规划transshipment问题匿名度

海豚哨声轮廓自动提取与修复

海豚是一种高智商的水生哺乳动物，它们使用自己独特的“语言”——哨声来进行互相交流。要想理解海豚的语言，就必须要对海豚哨声进行分析研究。当前对海豚哨声的分析研究大多是

学位

海豚哨声轮廓自动提取修复技术系统设计

基于VHDL的模型检查应用与实现

随着计算机软硬件系统规模的日益复杂化、重要化，如何保证计算机系统的正确性和可靠性，逐渐成为当前理论界和产业界共同关心的重要问题。长期以来，常用的系统设计检验方法是以经

学位

模型检查二叉决策图VHDL

面向DEEPWEB挖掘网络爬虫设计和实现

其他学术论文