论文部分内容阅读
数据挖掘是指从大量的、不完全地、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识和规则的过程,数据挖掘的研究已经取得了重大的进展,而且被应用到众多的领域。关联规则挖掘是数据挖掘研究中一个重要课题,它主要用于从给定的数据集中发现频繁出现的项集模式知识。
本文首先介绍了数据挖掘的任务和过程以及它的应用情况和发展趋势,关联规则挖掘的基本概念、分类方法和经典算法,然后重点对如何高效挖掘最大频繁项集、生成关联规则以及缩减规则的规模进行了研究,对根据得到的正规则挖掘隐含的负规则进行了探讨,最后设计并实现了江苏财经职业技术学院教学质量评价分析系统。本文的主要工作和研究成果如下:
1、对如何高效挖掘最大频繁项集进行了研究,针对现有算法中存在的需要超集检测和递归的建立条件频繁模式树问题提出基于有序FP树和NBN策略挖掘最大频繁项集的MMFI算法,对算法的性能和效率进行了分析和实验验证。
2、针对MMFI算法中需要反复检索相同项目结点链影响挖掘效率的问题进一步修改了用于挖掘的数据结构,提出基于含叶子结点链的有序FP树挖掘最大频繁项集的IMMFI算法,通过实验对算法的性能和效率进行了验证。
3、对生成关联规则的方法进行了研究,针对基本生成方法导致的“规则爆炸”问题分析了现有缩减规则规模方法中存在的问题,提出了最大关联规则MAR的概念,类似于用挖掘最大频繁项集取代挖掘完全频繁项集,用挖掘最大关联规则取代挖掘所有的关联规则,提出基于候选规则队列集结构挖掘单个最大频繁项集的最大关联规则的MMARI算法,并用实例对算法的性能进行了验证。
4、分析了用MMARI算法挖掘整个事务数据库的最大关联规则存在的问题,提出了挖掘整个事务数据库最大关联规则的MMARD算法,对算法在不同情况下应选取的策略进行了论证,并通过实例对算法的性能进行了验证。
5、对冗余规则问题进行了研究,提出一种在特定情况下根据挖掘出的正关联规则直接获得隐含的置信度更高的负关联规则的方法。
6、设计并实现了江苏财经职业技术学院教学评价信息分析系统。