Deep Web数据源分类研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lee419444083
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积累。目前整个Web信息量已经超过了200,000TB,且随着人们业务的不断深入和发展仍将不断增长。为了利用这些资源,尤其是Deep Web资源,学界引入了Deep Web数据集成问题的研究。而Deep Web数据源的分类作为Deep Web数据集成中的重要环节,需要更多关注和研究。Deep Web数据源分类有两种常用方法:预查询方法和提交查询方法。预查询方法为基于Deep Web查询接口特征进行的分类,而提交查询方法则是在提交查询后,针对返回的查询结果内容进行的分类。由于提交查询工作量和网络占用过大,对结果操作费时,因此本文以查询接口为突破口,通过预查询的方法来进行数据源的分类。当前的主要问题是:在Deep Web数据源分类中,如何将待分类数据源与数据源所在领域的知识结合起来,如何选用或改进聚类、分类算法等。这些方面都需要进行相应的研究和扩展,以使得分类效果更好。本文要解决的问题主要包括两部分:海量数据源的聚类和新发现数据源的分类。为了解决这两个问题,使用了同义词词典以及本体,并且对现有的相关算法进行了改进,使之更好地进行数据源分类。简要说来,本文的主要贡献和创新如下:1.提出改进的聚类算法DWK-means。本文基于页面-表单模型,提出对页面进行内容文本特征和超链接的提取,同时对表单特征提取进行了规范。之后进行预处理,包括特征标准化以及利用同义词词典进行的语义处理。最终使用改进的聚类算法DWK-means进行聚类。之所以要改进K-means聚类算法,是由于该算法会产生疏松的簇,或者有些簇为相同领域,需要继续归入为一类。在DWK-means算法中进行了后处理,以此分解疏松簇,并根据超链接进行同领域簇的合并。实验发现:通过预处理,提高了聚类效果,而DWK-means算法克服了前面所述的缺点,最终取得了较好的聚类效果。2.提出基于本体的分类算法DWC4.5。对Deep Web数据源聚类后,为了对新发现的Deep Web数据源进行分类,本文提出了新的处理方法。首先建立本体,然后根据由本体确定的各个属性的权重建立决策表。由于C4.5算法抗噪性较差,为了在Deep Web分类中产生更佳的决策树,引入粗糙集方法来改进C4.5算法。实验发现:通过建立本体,可以有效区分领域概念,处理各属性间语义关系。基于本体,采用改进的分类算法DWC4.5取得了较好的分类效果。
其他文献
随着我国民航信息化的发展,旅客人次和航班数量的不断增加,民航信息数据呈现出爆炸式增长的趋势,与此相对的是我国民航面向公众、全行业单位与部门的数据共享和信息服务不适
计算机教育教学是高职高专院校教学的一个重要组成部分,实施计算机教育教学的模式、方法对培养学生实践能力、创新思维、科研能力有着重要意义.本文重点分析了当前计算机教育
中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度
随着嵌入式系统性能的提高以及流媒体业务的发展,嵌入式流媒体业务也在各个领域中蓬勃发展。现代网络技术的发展使得网络应用更加普及,各种基于网络的应用不再拘泥于有限的带宽
随着移动互联网的兴起,位置信息的价值也愈发突显,利用海量位置数据分析用户的行为,解释人们的活动规律,挖掘顾客的潜在价值越来越受到人们的关注。得益于卫星定位和测绘技术的发
自从互联网诞生以来,网络安全问题一直是不容小觑的问题,特别是入侵检测领域,也一直是研究者们研究的热点。现如今攻击者的攻击手段日益的隐蔽,复杂,网络安全设备所产生的告
随着生物技术的发展,生物医学文献的数量急剧增加,例如:生物医学领域,最大、最权威的文献数据库(NCBI MEDLINE)包含1900多万篇文献,并以每月几万篇的速度增长,这使得生物医学研究者
由于无线通信技术的迅速发展,无线网络得到了十分广泛的应用。作为全球公认的无线局域网权威——IEEE 802工作组建立的标准在局域网领域独领风骚。无线局域网日益普及,层出不
电子商务是一种以Internet/Intranet网络为架构,以交易双方为主体,以银行支付和结算为手段,以客户数据库为依托的全新的商业模式。电子商务作为全球经济发展的最终趋势,将成
学位
发展党内民主提升党的创新能力是巩固党的团结统一的重要保证,是党的建设新的伟大工程的重要内容。本文阐述了党内民主是党的生命力的源泉,发展党内民主提升党的创新能力关键