基于改进FP树的关联规则挖掘算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:mdjpos01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,关联规则揭示项集间的相联关系,已广泛应用于科研、商业、金融等领域,极大提高了决策支持的能力。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项目集是挖掘关联规则中的关键问题之一。因为最大频繁项目集已经隐含了所有的频繁项目集,所以可以将发现频繁项目集的问题转化为发现最大频繁项目集的问题。本文主要对挖掘最大频繁项目集的问题进行了研究,并将其应用到分布式计算环境中。 本文首先介绍关联规则相关概念及其经典算法Apriori和FP-growth,并简介最大频繁项目集挖掘的研究动向及相关算法。然后基于改进的FP-tree,提出一种最大频繁项目集算法IFP-HaxFl,该算法不产生条件模式基,直接通过节点调整操作,得到后缀树,然后挖掘后缀树得到候选最大频繁模式,通过对最大频繁模式树的快速访问,可以实现候选最大频繁模式的子集检测。在分布式计算环境中,本文提出GMF IM 算法来实现全局最大频繁项目集的挖掘,它采用局部-全局的通信方式,减少了通信量,利用全局频繁项目和局部频繁项目的关系,尽量让各站点独立挖掘局部最大频繁项目集合,然后在全局主站点实现全局最大频繁项目集的生成。实验表明所提出的两个算法是有效的。
其他文献
verilog是当前应用最为广泛的硬件设计语言之一,它可以用于硬件系统各种级别的设计、综合、仿真。PSL是一种标准的描述硬件和嵌入式系统规范的语言(IEEE-1850)。PSL的简单子集
中国画有着悠久的历史和丰富的遗产,在东方艺术中具有举足轻重的作用。近年来,随着计算机图形学技术的飞速发展,许多研究人员已经在中国画仿真中取得了卓越的可视化效果,这些
随着计算机应用的不断深入,大量的数据被存储在了关系数据库中,如何快速有效地从数据库中,特别是从相互关联的多个数据库中检索出用户所需要的数据,是数据库检索领域近几年的
微博用户的可信度研究已逐步成为当前微博研究的热点之一,其目的是对微博用户的身份类别进行一个客观、合理的评价,有效鉴别微博中的虚假用户。然而现有的鉴别方法大多停留在
计算机技术正在日益影响人们的生活方式和行为习惯,为用户提供安全有效的身份认证服务则是其中的核心技术之一。公钥基础设施PKI是一种广泛使用的身份认证解决方案,可信计算
作为数据库研究领域中的热点,数据库中的知识发现(简称KDD)正在受到越来越多的关注。它被定义为在数据中寻找正确的、有趣的、潜在有用的并最终可以理解的模式。对关联规则的
随着互联网络的迅速发展和教育方式的不断改革,以异步教育方式为主要特征的e-Learning正成为一种重要的学习途径。但是,目前诸多e-Learning系统不能为学生创建个性化的学习内容
CDMA系统在技术上的优势已经使它成为3G的核心体制,但系统的容量和通信质量受限于多址干扰。多用户检测技术是宽带CDMA通信系统抗干扰的关键技术,其中最优多用户检测方法在理论
经过数年的发展,DSL(Digital Subscriber Line)技术逐渐走向成熟。DSL设备正在越来越多的应用于普通用户之中。DSL用户终端设备需要根据局端设备的情况进行配置、监控、维护
近十年来,IP设计重用来已成为片上系统(SOC)开发领域所关注的重点,性质或断言将被广泛采用在验证过程之中。PSL(Property Specification Language)被确立为性质规范语言标准后,