关联规则挖掘算法的研究和设计

来源 :四川大学 | 被引量 : 0次 | 上传用户:antonw1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入九十年代以来,随着网络技术的发展以及各种各样的Internet应用的出现,全球Internet业务呈现一种爆炸式增长的趋势,使得人类积累的数据量正在以指数速度迅速增长。因此,迫切需要一种能够智能化地、自动地把数据转换成有用信息和知识的技术与工具――数据挖掘(Data Mining,DM)便诞生了。“啤酒搭着尿布卖”的经典故事引出了数据挖掘中关联规则挖掘的无穷作用。挖掘关联规则就是发现对象之间的相关性,成为人们可以利用的知识。生成事务数据库的频繁集是关联规则挖掘的关键,其中著名的算法有Apriori和FP-Growth ( Frequent Pattern Growth,频繁模式增长)等算法。但是它们得到的频繁集并不是最优;同时对于事务数据库中的数据,如果具有很强的可划分性(可划分性是指在每个划分之间具有低相似度而在同一个划分内部具有高相似度的性质),那么即使此类算法只是经过对最后生成的频繁集处理使得没有冗余,但是它的效率也不是最好,于是本文在对已有算法深入研究后提出一点自己的想法。首先对事务数据库进行分类;然后在每个划分上面进行频繁模式树FP-Tree(Frequent Pattern Tree,频繁模式树)的构造和利用频繁模式增长算法FP-Growth ( Frequent Pattern Growth,频繁模式增长)产生频繁集;最后对结果进行一个修剪和合并,得到最优结果。同时本文也给出了通过编程测试此算法和FP-Growth算法的性能,并作比较。第二章主要研究关联规则中的基本概念,同时分析由Agrawal等人提出的最著名的Apriori频繁集产生算法的原理,它是一种需要计算频繁候选集的算法。计算项目集的支持度是发现频繁项目集中最耗时的工作,因此,Apriori算法具有一定的局限性,而降低候选项目集的数量是减小开销的最好手段。本文第三章是重点,首先分析和研究了FP-Growth算法,它从根本上改进了Apriori算法的缺点,是一种不产生频繁候选集的关联规则挖掘算法。然后在此基<WP=3>础上,根据作者的理解和研究,总结出了FP-Growth算法还有些不足,提出基于FP-Growth的新算法。文中给出了新算法的理论依据,以及整个算法的思路。第四章,编程实现利用本文提出的新算法来挖掘频繁集的整个过程,同时实现了著名的FP-Growth算法,以便两种算法挖掘同一个测试数据库进行相应的测试。其中本文给出了实现过程中定义的数据结构和部分核心源代码,并做了注释。第五章,主要对本文提出的新算法和FP-Growth算法从存储空间和运行时间以及结果的最优性三个方面进行比较,总结出本文提出的新算法的优点。第六章,总结。提出新算法的不足之处和可以做的一些改进,结束全文。目前数据挖掘技术在国外应用非常广泛,但是国内在这方面的发展相对缓慢。作者在对本文提出和研究的各种算法进行比较和测试,这些工作也只是对数据挖掘进行一个简单而浅显的研究,希望在今后的工作中更加深化和具体的分析和研究。
其他文献
软件工程的发展伴随者编程语言的进化发生了巨大的变化,在现代的软件工程中,面向对象的分析(OOA Obiect-Oriented Analysis)、设计(OOD Object-Oriented Design)、编程方法(O
随着我国市场经济的发展和加入WTO,我国制造的产品要面对来自国内外市场的双重激烈竞争,尤其是钢铁产品更要面对国际市场的激烈竞争。钢材产品质量主要包括:尺寸和形状精度、
目前基于网络的数字监控录像系统被广泛的应用于许多重要场所作为安全保障。这种模式的数字监控录像系统需要不断地将监控场所的录像码流通过图像传输网络传到录像主机,因此
目前,在许多科学研究领域、电子商务领域需要强大的计算能力支持,许多计算问题已经无法用一台PC机在有限的时间内完成,甚至一台超级计算机也不能在有限的时间内完成。同时,随着互
随着电子网络媒体的广泛使用,教学用的知识和学习材料将可以进行不同的组合,以更多交流和通信的方式呈现给学生,以适应学习者不同的知识背景和需求。因此,网络上的教学过程可
目前,计算机系统的建设已从硬件和软件环境为中心转变为以应用和数据为中心,而企业对数据存储技术的需求也在不断攀升,SAN正是为了满足企业这种高涨的存储技术的要求而产生的
电力系统图形编辑器作为一个重要组成部分镶嵌在其它电力系统应用程序中,这就要求它能够方便地绘制和表达各类电力系统设备元件,提供各种分析功能接口,提供统一的图形用户界
随着电子商务的应用逐步深入,互联网的服务模式逐步向电子网上交易转变,这一变化必然导致用户访问量的激增且服务请求多样。如何实现对请求的快速响应是当前解决的问题。而以往
数字信号处理(DSP)技术已成为人们日益关注并得到迅速发展的前沿技术。然而,DSP技术实现主要载体之一的DSP处理器的性能从体系结构到指令系统等诸方面虽具有灵活的可编程性,
主动数据库系统是将主动性功能以一种统一的方法与原有的数据库功能相结合,能够提供主动服务功能的数据库系统。主动数据库由主动规则机制来实现其主动性,本文采用的ECA规则主