论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘出对用户有价值的信息。其中关联规则挖掘是数据挖掘的一个重要研究分支,主要用于发现数据集中项之间的相关联系。由于关联规则形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,因此从大型数据库中挖掘关联规则问题已成为数据挖掘中最成熟、最重要、最活跃的研究内容。本文对数据挖掘技术,尤其是关联规则数据挖掘技术进行了全面地分析和研究,在先前研究的基础上,提出解决相应问题的关联规则挖掘算法。论文的主要内容包括以下四个方面:第一、数据挖掘技术、关联规则挖掘技术的分析与研究。文中详细地介绍了数据挖掘基本概念,并对数据挖掘的过程、数据挖掘的应用领域以及数据挖掘的常用技术进行分类、归纳和总结,并且对数据挖掘技术的国内外研究现状进行分析;文中还对关联规则的定义、性质、基本步骤做了系统地阐述,分析研究关联规则挖掘的经典挖掘算法Apriori以及基于Apriori算法的的改进方法,另外,对不产生候选挖掘频繁项集的FP-growth算法的过程、思想进行了详细地描述。第二、深入研究了关联规则中最大频繁项目集,提出一种基于FP-tree结构的最大频繁模式挖掘算法DMFIA-D。通过实例说明该DMFIA-D算法执行过程,并通过试验证明该算法与DMFIA算法相比更具有优越性,试验还验证了算法的可扩展性。DMFIA-D算法对FP-tree结构进行了改进,充分利用FP-tree结构特征,并运用双向搜索策略,自顶向下选取最大频繁候选项集,自底向上对候选项集进行计数、剪枝最终确定最大频繁项目集。由于减少了最大频繁候选集,并对候选集进行有效剪枝,从而缩短了算法的挖掘时间,提高效率。第三、文中研究了增量更新算法FUP,提出一种基于临时表的改进算法MFUP。实例说明了MFUP算法的执行过程,实验验证了MFUP算法的优越性。通过对FUP算法进行分析,指出它的优缺点,针对FUP算法的不足,提出改进算法MFUP。该算法通过建立临时表,来存放增量数据库的频繁项集,充分利用原数据库挖掘的结果,尽早的删除了更新数据库的非频繁项目集,从而大大减少了对数据的重复扫描,提高了数据挖掘算法的效率。第四、研究探讨了算法DMFIA-D在超市系统分析中会员消费情况的应用尝试。为超市系统针对会员消费情况制定销售策略、促销活动等提供辅助决策信息。