Deep Web数据源分类研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：lee419444083

【摘要】

：

随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积累。目前整个Web信息量已经超过了200,000TB,且随着人们业务的不断深入和发展仍将不断增长。为了利用这

【作者】

：

丁宝石

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2010年期

【关键词】

：

Deep Web数据源分类同义词词典本体 K-means DWK-means C4.5 DWC4.5

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积累。目前整个Web信息量已经超过了200,000TB,且随着人们业务的不断深入和发展仍将不断增长。为了利用这些资源,尤其是Deep Web资源,学界引入了Deep Web数据集成问题的研究。而Deep Web数据源的分类作为Deep Web数据集成中的重要环节,需要更多关注和研究。Deep Web数据源分类有两种常用方法：预查询方法和提交查询方法。预查询方法为基于Deep Web查询接口特征进行的分类,而提交查询方法则是在提交查询后,针对返回的查询结果内容进行的分类。由于提交查询工作量和网络占用过大,对结果操作费时,因此本文以查询接口为突破口,通过预查询的方法来进行数据源的分类。当前的主要问题是：在Deep Web数据源分类中,如何将待分类数据源与数据源所在领域的知识结合起来,如何选用或改进聚类、分类算法等。这些方面都需要进行相应的研究和扩展,以使得分类效果更好。本文要解决的问题主要包括两部分：海量数据源的聚类和新发现数据源的分类。为了解决这两个问题,使用了同义词词典以及本体,并且对现有的相关算法进行了改进,使之更好地进行数据源分类。简要说来,本文的主要贡献和创新如下：1.提出改进的聚类算法DWK-means。本文基于页面-表单模型,提出对页面进行内容文本特征和超链接的提取,同时对表单特征提取进行了规范。之后进行预处理,包括特征标准化以及利用同义词词典进行的语义处理。最终使用改进的聚类算法DWK-means进行聚类。之所以要改进K-means聚类算法,是由于该算法会产生疏松的簇,或者有些簇为相同领域,需要继续归入为一类。在DWK-means算法中进行了后处理,以此分解疏松簇,并根据超链接进行同领域簇的合并。实验发现：通过预处理,提高了聚类效果,而DWK-means算法克服了前面所述的缺点,最终取得了较好的聚类效果。2.提出基于本体的分类算法DWC4.5。对Deep Web数据源聚类后,为了对新发现的Deep Web数据源进行分类,本文提出了新的处理方法。首先建立本体,然后根据由本体确定的各个属性的权重建立决策表。由于C4.5算法抗噪性较差,为了在Deep Web分类中产生更佳的决策树,引入粗糙集方法来改进C4.5算法。实验发现：通过建立本体,可以有效区分领域概念,处理各属性间语义关系。基于本体,采用改进的分类算法DWC4.5取得了较好的分类效果。

其他文献

民航公众信息服务平台中基于BPEL的动态服务组合研究与实现

随着我国民航信息化的发展,旅客人次和航班数量的不断增加,民航信息数据呈现出爆炸式增长的趋势,与此相对的是我国民航面向公众、全行业单位与部门的数据共享和信息服务不适

学位

民航信息服务Web服务组合BPEL动态调整服务匹配二部图

中文分词技术在搜索引擎中的研究与应用

中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度

学位

中文分词搜索引擎Lucene最大匹配算法双字哈希歧义处理

嵌入式流媒体中间件的研究

随着嵌入式系统性能的提高以及流媒体业务的发展，嵌入式流媒体业务也在各个领域中蓬勃发展。现代网络技术的发展使得网络应用更加普及，各种基于网络的应用不再拘泥于有限的带宽

学位

嵌入式系统流媒体中间件技术

面向室内空间的语义轨迹提取方法研究

随着移动互联网的兴起，位置信息的价值也愈发突显，利用海量位置数据分析用户的行为，解释人们的活动规律，挖掘顾客的潜在价值越来越受到人们的关注。得益于卫星定位和测绘技术的发

学位

室内定位语义轨迹提取算法数据挖掘室内空间

基于入侵检测的数据处理分析关键算法研究

自从互联网诞生以来,网络安全问题一直是不容小觑的问题,特别是入侵检测领域,也一直是研究者们研究的热点。现如今攻击者的攻击手段日益的隐蔽,复杂,网络安全设备所产生的告

学位

SVM告警聚合攻击行为序列攻击场景最大序列模式

基于Lucene的生物医学文献检索系统的研究与改进

随着生物技术的发展，生物医学文献的数量急剧增加，例如：生物医学领域，最大、最权威的文献数据库(NCBI MEDLINE)包含1900多万篇文献，并以每月几万篇的速度增长，这使得生物医学研究者

学位

生物医学文献检索系统查询扩展全文检索

基于IEEE802.11的负载均衡机制研究

由于无线通信技术的迅速发展,无线网络得到了十分广泛的应用。作为全球公认的无线局域网权威——IEEE 802工作组建立的标准在局域网领域独领风骚。无线局域网日益普及,层出不

学位

802.11协议负载均衡位置信息管理帧AP

建材家居在线销售系统的设计与实现

电子商务是一种以Internet/Intranet网络为架构,以交易双方为主体,以银行支付和结算为手段,以客户数据库为依托的全新的商业模式。电子商务作为全球经济发展的最终趋势,将成

学位

Deep Web数据源分类研究

其他学术论文