论文部分内容阅读
近些年来,伴随信息技术飞速的发展,大量的数据随之产生,数据量的积累正在以指数的方式进行增长,大量的信息和知识隐藏在这些数据的背后。在这样的背景下,数据挖掘(Data Mining,DM)技术产生了,并已广泛应用于各行各业,为决策者进行决策提供了强有力的支持依据。关联规则分析(Association Rules Analysis)是数据挖掘中最重要,也是应用最广泛的方向之一,具有极高的研究意义,因此,如何提高关联规则挖掘算法的运算效率以及有效性,是很值得研究的问题。 Apriori算法是关联规则挖掘中最经典也是最重要的算法之一,但是运行效率低,一直是该算法最大的弊病,特别是面对大型数据集时。由于上述原因,本文提出基于聚类和矩阵压缩的加权Apriori算法—K-means Clustering&Compressed Matrix(KCCM)算法,以提高算法的运行效率。 文中首先对数据集通过K-means算法进行预处理将事务数据集分为若干块,并定义了项集之间距离为两项频度计数的倒数,通过这种距离定义,可有效的使具有关联关系的项分到同一类。然后文中对数据进行二元化处理,以0和1的形式映射到事务矩阵中,对已经过预处理的事务数据库进行分块挖掘,通过事务矩阵的不断压缩,能够有效的得到频集以及强规则。接下来,不同于传统的基于“支持度—置信度(Support-Confidence)”的度量框架模型,文中引入了提升度(Lift),提出了基于“支持度—置信度+提升度(Support—Confidence+Lift)”的度量框架,以提高算法的有效性。并且在权值方面,文中对权值进行了“归一化”处理,以避免产生以往权值项大于等于1的情况。最后,本文运用数学软件MATLAB对KCCM算法进行了数据仿真实验,通过对结果的分析,验证了KCCM算法的有效性和高效性。