论文部分内容阅读
进入九十年代以来,随着网络技术的发展以及各种各样的Internet应用的出现,全球Internet业务呈现一种爆炸式增长的趋势,使得人类积累的数据量正在以指数速度迅速增长。因此,迫切需要一种能够智能化地、自动地把数据转换成有用信息和知识的技术与工具――数据挖掘(Data Mining,DM)便诞生了。“啤酒搭着尿布卖”的经典故事引出了数据挖掘中关联规则挖掘的无穷作用。挖掘关联规则就是发现对象之间的相关性,成为人们可以利用的知识。生成事务数据库的频繁集是关联规则挖掘的关键,其中著名的算法有Apriori和FP-Growth ( Frequent Pattern Growth,频繁模式增长)等算法。但是它们得到的频繁集并不是最优;同时对于事务数据库中的数据,如果具有很强的可划分性(可划分性是指在每个划分之间具有低相似度而在同一个划分内部具有高相似度的性质),那么即使此类算法只是经过对最后生成的频繁集处理使得没有冗余,但是它的效率也不是最好,于是本文在对已有算法深入研究后提出一点自己的想法。首先对事务数据库进行分类;然后在每个划分上面进行频繁模式树FP-Tree(Frequent Pattern Tree,频繁模式树)的构造和利用频繁模式增长算法FP-Growth ( Frequent Pattern Growth,频繁模式增长)产生频繁集;最后对结果进行一个修剪和合并,得到最优结果。同时本文也给出了通过编程测试此算法和FP-Growth算法的性能,并作比较。第二章主要研究关联规则中的基本概念,同时分析由Agrawal等人提出的最著名的Apriori频繁集产生算法的原理,它是一种需要计算频繁候选集的算法。计算项目集的支持度是发现频繁项目集中最耗时的工作,因此,Apriori算法具有一定的局限性,而降低候选项目集的数量是减小开销的最好手段。本文第三章是重点,首先分析和研究了FP-Growth算法,它从根本上改进了Apriori算法的缺点,是一种不产生频繁候选集的关联规则挖掘算法。然后在此基<WP=3>础上,根据作者的理解和研究,总结出了FP-Growth算法还有些不足,提出基于FP-Growth的新算法。文中给出了新算法的理论依据,以及整个算法的思路。第四章,编程实现利用本文提出的新算法来挖掘频繁集的整个过程,同时实现了著名的FP-Growth算法,以便两种算法挖掘同一个测试数据库进行相应的测试。其中本文给出了实现过程中定义的数据结构和部分核心源代码,并做了注释。第五章,主要对本文提出的新算法和FP-Growth算法从存储空间和运行时间以及结果的最优性三个方面进行比较,总结出本文提出的新算法的优点。第六章,总结。提出新算法的不足之处和可以做的一些改进,结束全文。目前数据挖掘技术在国外应用非常广泛,但是国内在这方面的发展相对缓慢。作者在对本文提出和研究的各种算法进行比较和测试,这些工作也只是对数据挖掘进行一个简单而浅显的研究,希望在今后的工作中更加深化和具体的分析和研究。