论文部分内容阅读
随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积累。目前整个Web信息量已经超过了200,000TB,且随着人们业务的不断深入和发展仍将不断增长。为了利用这些资源,尤其是Deep Web资源,学界引入了Deep Web数据集成问题的研究。而Deep Web数据源的分类作为Deep Web数据集成中的重要环节,需要更多关注和研究。Deep Web数据源分类有两种常用方法:预查询方法和提交查询方法。预查询方法为基于Deep Web查询接口特征进行的分类,而提交查询方法则是在提交查询后,针对返回的查询结果内容进行的分类。由于提交查询工作量和网络占用过大,对结果操作费时,因此本文以查询接口为突破口,通过预查询的方法来进行数据源的分类。当前的主要问题是:在Deep Web数据源分类中,如何将待分类数据源与数据源所在领域的知识结合起来,如何选用或改进聚类、分类算法等。这些方面都需要进行相应的研究和扩展,以使得分类效果更好。本文要解决的问题主要包括两部分:海量数据源的聚类和新发现数据源的分类。为了解决这两个问题,使用了同义词词典以及本体,并且对现有的相关算法进行了改进,使之更好地进行数据源分类。简要说来,本文的主要贡献和创新如下:1.提出改进的聚类算法DWK-means。本文基于页面-表单模型,提出对页面进行内容文本特征和超链接的提取,同时对表单特征提取进行了规范。之后进行预处理,包括特征标准化以及利用同义词词典进行的语义处理。最终使用改进的聚类算法DWK-means进行聚类。之所以要改进K-means聚类算法,是由于该算法会产生疏松的簇,或者有些簇为相同领域,需要继续归入为一类。在DWK-means算法中进行了后处理,以此分解疏松簇,并根据超链接进行同领域簇的合并。实验发现:通过预处理,提高了聚类效果,而DWK-means算法克服了前面所述的缺点,最终取得了较好的聚类效果。2.提出基于本体的分类算法DWC4.5。对Deep Web数据源聚类后,为了对新发现的Deep Web数据源进行分类,本文提出了新的处理方法。首先建立本体,然后根据由本体确定的各个属性的权重建立决策表。由于C4.5算法抗噪性较差,为了在Deep Web分类中产生更佳的决策树,引入粗糙集方法来改进C4.5算法。实验发现:通过建立本体,可以有效区分领域概念,处理各属性间语义关系。基于本体,采用改进的分类算法DWC4.5取得了较好的分类效果。