Deep Web数据抽取及集成技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:madywu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网技术和数据库技术的结合,网络开始迅速的深化。大量的信息都隐藏在Web数据库中,用户通过查询可以动态的获取这些信息,学者们将这类资源称为Deep Web。由于Deep Web资源分布在各个Deep Web站点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deep Web领域的数据抽取及集成技术进行了研究,并提出了相关的算法和解决方案,最后设计了一个面向Deep Web的搜索引擎原型系统。本文的主要研究工作如下:(1)将Web数据对象从查询结果页面中抽取出来是Deep Web数据集成的第一步,本文基于文档对象模型,通过页面预处理、抽取候选Web数据对象集、去除非Web数据对象三个阶段提出了一种自动抽出Web数据对象的方法。(2)提出了一种对模式异构的Web数据对象进行集成的方法。该方法以向量空间模型为基础,以聚类为手段对来自不同Deep Web站点的异构Web数据对象进行了集成,并以区分度为基础,以相似度为度量手段检测出了重复的Web数据对象,实现了Web数据对象的去重。(3)分析了海量数据的组织方法对查询响应速度的影响,在此基础上提出了一种对海量Web数据对象进行组织的方法。该方法通过递增聚类使Web数据对象根据自身的特征自然的聚集在一起,形成一个科学的类别层次,为查询的快速响应奠定基础。(4)在上述研究的基础上设计了一个面向Deep Web的搜索引擎原型系统。本文还对文中提出的方法和技术进行了实验,结果表明本文提出的方法技术是可行有效的。
其他文献
学位
分类作为数据挖掘领域中最为活跃的分支之一,被广泛的应用于模式识别、图像识别、机器学习等领域。而且,分类在现实社会生活、生产实践中也有着广泛的应用场景,比如医疗图像
随着互联网及相关技术的发展,越来越多的人通过网络进行信息互通、知识传播和文化交流。网络学习(E-Learning)也逐渐成为人们获取知识的重要方式。E-Learning是指通过Interne
数字图像配准是计算机视觉中的一个基本问题,它在三维图像重构、目标识别、对象分类、相机自校正等方面都有广泛的应用。数字图像配准通常是数字图像处理的一个预处理阶段,比
随着光纤保护系统在通信领域的广泛运用,建立一整套软、硬齐全的光层保护监控系统尤其重要。此种系统不仅可以实时监控光线路状态,对各种现象给予及时处理,还可以很好的管理
语义分析作为现阶段自然语言处理研究领域一个重要的研究课题,近年来备受关注。然而由于目前准确、深入的自动语义分析技术发展受到限制,在一定程度上遏制了自然语言处理技术
随着数据仓库技术的发展,数据组织越来越复杂,数据源也越来越多样化,传统的数据仓库已经不能很好地适应新的要求。XML是一种可扩展的标记语言,具有可扩展性、结构性、平台独
过去的几年里,手机的普及和无线通信技术的迅猛发展,增强了企业应用程序的用户对空间位置的要求,推动了企业在移动应用方面的发展。移动平台的应用受到越来越多企业和个人的
作为椭圆曲线密码体制(ECC)的推广,Neal Koblitz在1989年提出了超椭圆曲线密码体制(HCC)。超椭圆曲线密码体制是基于有限域上的超椭圆曲线Jacobian群上离散对数问题的。相比
人脸动画是广泛应用于计算机动画行业、游戏行业、远程会议、代理和化身等许多领域,是近几年来国内外研究的热点。其中,基于单幅图像的人脸动画的研究近年来引起了许多研究者