论文部分内容阅读
随着计算机应用技术的迅速普及,各个领域的业务数据量以前所未有的速度快速增长,数以TB的数据积累存储在各自系统的数据库中,使得提取其中的信息变得越来越困难。数据挖掘技术自20世纪80年代后期诞生以来,日益成熟,越来越广泛地应用于工程技术、医疗、保险和商业管理等领域。数据挖掘给人们提供了一种新的认识数据理解数据的手段。而关联规则则是数据挖掘的一个重要研究方向。在教育领域,每年每学期均要产生大量的学生成绩数据,在这个超大规模的成绩数据后面,蕴含着极其丰富的可能被挖掘的隐含信息。挖掘并分析这些隐含信息,对指导我们的教学有较大帮助。
关联规则挖掘发现大量数据中项集之间有趣的关联或者相关联系,作为经典的关联规则算法,Apriori算法执行广度优先搜索策略,采用剪枝策略,减少了用于计数的候选项集的数量;而Eclat算法执行深度优先搜索策略,由于缺乏用于剪枝操作的必要的项集信息,所以无法对候选项集进行剪枝,因此计数的候选项集的数量要多于Apriori算法,基于此,本文在针对关联规则算法中挖掘频繁项集的效率低下问题,在Eclat算法的基础上,提出一种改进的Eclat算法,改进的Eclat算法是一种在垂直数据表示方式上执行广度优先搜索和交叉计数的新算法,新算法充分利用了垂直数据表示和交叉计数的高效优势,以及改进的Apriori算法的剪枝策略,减少了计数的候选项集的数量,减少了由k-1级频繁项集生成七级候选项目集的连接次数。实验结果表明,改进的Eclat算法的运行速度较优于Eclat算法。
本文的研究工作是结合教学中的教学规律研究开展的,着重研究如何应用数据挖掘技术中的关联规则挖掘方法对教育教学数据进行分析,挖掘教育教学数据中蕴含的各种教育教学规律。本文采用改进的Eclat算法,用VC++实现了基于关联规则的挖掘模块,并且利用本系统对CET成绩数据进行了规则挖掘,取得了良好的效果。