基于互关联后继树的关联规则挖掘研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:snake916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则(association rules)在数据挖掘是一个重要的研究内容.而产生频繁集(frequent items)则是产生关联规则的第一步.在大多数以前的实现中,人们普遍采用了类似于Aprior的算法.这种算法首先产生频繁候选集(candidate items),然后根据最小支持度(minimum support)生成频繁集,最后得出关联规则.Apriori算法有一个很大的缺点,就是使用不断产生候选集并加以测试的方式来得到频繁集,这样产生候选集的代价是非常大的.虽然人们想出了很多办法,但根本的扫描多遍数据库没变,因此不可能从根本上提高算法的效率.在1999年,Jiawei Han 等人又提出了以FP-tree(Frequent Pattern Tree)结构为基础并结合FP-growth算法的不需要产生候选集的频繁集的挖掘算法.该算法是目前我们所看到的研究中最新、最有效率,同时也最为著名的算法之一,DBMINER便是实际运用FP-growth算法的产品.基于FP-tree结构的关联规则挖掘在挖掘单一维和布尔值规则的领域中是相当有用的结构.该算法的思想是将提供频繁项集的数据库压缩到一棵频繁模式树(或FP-tree),但仍保留项集关联信息,然后,将这种压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每一个条件数据库关联一个频繁项集.对FP-tree方法的性能研究表明:对于挖掘长的和短的频繁模式,它都有效的,并且具有良好的可伸缩性,且大约比Apriori算法快一个数量级.但FP-tree方法,需要二次扫描事务库D,构造出的FP-tree几乎每一个项均需要一个指针支持,空间的消耗是很大的,挖掘FP-tree的过程也显得相当的麻烦.因此,该文提出一种新型的发现频繁项集的数学模型——互关联后继树模型.和FP-tree一样,互关联后继树不需要产生候选项集,而直接构造频繁项集.而且只需要扫描一遍事务库.将互关联后继树运用到关联规则的挖掘上也可以产生很好的效率.
其他文献
XML是万维网联盟(W3C)创建的一组规范,它为基于WEB的应用提供了一种描述数据和交换数据的有效手段,目前在各领域的应用日益广泛。将XML技术应用于网上教学领域,开发和使用区别于
配电网故障定位是保证配电网安全运行的重要手段,本文针对配电网严重缺乏量测信息的实际情况,对基于故障投诉的配电网故障定位问题进行了深入的研究,提出了一种面向故障投诉推理的配电网模型,即将配电网看作图,将可开断配电设备和用户区看作图的节点,将配电线路看作图的边,采用了配电网分层的概念,并讨论了分层算法。采用面向对象的左孩子-右兄弟二叉树链表式的数据结构描述配电网,它相对于采用邻接矩阵和邻接表等数据结构
目前,在磁卡生产过程中,磁卡的表面质量检测主要依靠人工裸眼进行检测。人工检测不仅效率低、容易受到个人主观意识影响而且对缺陷的判断缺乏统一的标准。另外,人工经过长时间的
该文详细讨论了基于群件系统的文档管理平台的结构设计和流程设计.首先介绍群件系统Domino/notes的基本设计方法和元素,由于Domino/notes系统上开发的有别于传统的高级语言开
随着网络技术的发展和各种移动终端的普及,人们已经不满足于仅仅在固定的地方使用台式机来接入网络。无线局域网(Wireless LAN,WLAN)作为一种有线网络的无线延伸,以其高移动性、架
网络中存有数量巨大的电子格式信息.这些信息包括书籍、杂志、期刊、新闻、在线数据库和广告等.网络能够给人们提供各种各样的信息,搜索引擎是辅助人们寻找有用信息的工具,而
近年来随着物联网概念的兴起,人们对于基于位置需求的服务日益增大,尤其是复杂的室内环境,如工厂、医院、商场、矿井、景区、仓库等,常常需要知道相关人员、商品、物品等位置的详
该文结合浦发银行基金托管业务系统的设计与实现,分几个部分论述了如何采用J2EE/Java技术开发企业级Web应用.第一部份概括介绍了与该系统开发相关的知识和背景,包括银行基金
单类分类器是不同于传统模式识别的一种机器学习方法,传统模式识别方法一般需要多个类别的样本(至少两个),而在有些场合中,几乎无法获取多类的样本,或者获取其样本所需花费的代价
工作流管理系统的主要目标是通过调用有关的信息资源与人力资源来协调业务过程中的各个环节,使之按照一定的顺序依次进行,从而实现业务过程的自动化.随着经济的全球化发展,商