论文部分内容阅读
近年来,随着互联网的迅速发展,互联网上的数据越来越庞大,而且数据的种类也越来越繁杂,怎样能够有效地利用这些复杂的数据,从中发掘有价值的信息成了现今的研究热点。由于Web上的数据没有特定的模型描述,是一种半结构化或者是无结构的数据,那么相对于传统的数据库挖掘技术而言,就存在着很多的困难。XML是一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确的查询和模型抽取。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。此外Apriori算法是一个经典的关联规则挖掘算法,但是它存在这需要频繁重复扫描数据库以及产生数量庞大的2-项集等弊端。本文在介绍了数据挖掘、Web数据挖掘、XML等一些基本概念、技术、方法、过程的基础上,完成了从XML Schema文档映射为关系模式的设计,即在基于XML的Web数据挖掘与传统的基于关系数据模式的数据挖掘算法中间建立了联系之后,对传统的Apriori算法进行了分析和改进,通过实验证明,改进后的算法获得了较好的效率和性能。