基于矩阵压缩理论的Apriori算法研究与应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yisimple
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,伴随信息技术飞速的发展,大量的数据随之产生,数据量的积累正在以指数的方式进行增长,大量的信息和知识隐藏在这些数据的背后。在这样的背景下,数据挖掘(Data Mining,DM)技术产生了,并已广泛应用于各行各业,为决策者进行决策提供了强有力的支持依据。关联规则分析(Association Rules Analysis)是数据挖掘中最重要,也是应用最广泛的方向之一,具有极高的研究意义,因此,如何提高关联规则挖掘算法的运算效率以及有效性,是很值得研究的问题。  Apriori算法是关联规则挖掘中最经典也是最重要的算法之一,但是运行效率低,一直是该算法最大的弊病,特别是面对大型数据集时。由于上述原因,本文提出基于聚类和矩阵压缩的加权Apriori算法—K-means Clustering&Compressed Matrix(KCCM)算法,以提高算法的运行效率。  文中首先对数据集通过K-means算法进行预处理将事务数据集分为若干块,并定义了项集之间距离为两项频度计数的倒数,通过这种距离定义,可有效的使具有关联关系的项分到同一类。然后文中对数据进行二元化处理,以0和1的形式映射到事务矩阵中,对已经过预处理的事务数据库进行分块挖掘,通过事务矩阵的不断压缩,能够有效的得到频集以及强规则。接下来,不同于传统的基于“支持度—置信度(Support-Confidence)”的度量框架模型,文中引入了提升度(Lift),提出了基于“支持度—置信度+提升度(Support—Confidence+Lift)”的度量框架,以提高算法的有效性。并且在权值方面,文中对权值进行了“归一化”处理,以避免产生以往权值项大于等于1的情况。最后,本文运用数学软件MATLAB对KCCM算法进行了数据仿真实验,通过对结果的分析,验证了KCCM算法的有效性和高效性。
其他文献
该文研究的意义在于企业如何通过推广和应用六西格玛来提高产品和服务的过程性能,从而达到增加客户满意度和降低公司成本等目的,使得公司能在优胜劣汰的竞争环境中生存发展。 六西格玛实质上是一项突出追求超严格质量的系统工程,六西格玛质量系统是一个典型的复杂系统,由多个要素构成,具体表现为人、机器、原材料、方法、测量和环境等,要素之间具有复杂的非线性关系。因而六西格玛的实施是一个复杂的系统工程,必须用系
随着国民经济的飞速发展,传统的在汛期将水库运行水位限制在某一固定汛限水位下的防洪策略极大的影响了水电厂的发电量,使得防洪与兴利的矛盾日渐突出;然而,随着水文气象学科
本文主要利用位势井方法,凹函数方法及泛函分析理论,针对两类具指数型源项和三类具广义源的发展方程解的整体适定性进行了深入且细致的研究,旨在揭示各类方程的初值对于方程解
列车运行模拟与计算是一门涉及多学科的研究领域,开展这方面的研究对铁路工程设计、运营管理以及科学研究有重要意义。近年来,大规模的铁路新线建设、既有线路提速改造以及大量
Demons算法因其有效性和简便性在图像配准领域受到了广泛的关注,根据不同的需要学者们提出了许多改进算法,如Active Demons算法、微分同胚Demons算法等。Active Demons算法通过
随着风电装机容量的不断增大及风电在电力系统容量所占比例的不断提高,风电并网对电力系统及风电设备本身的安全稳定运行带来了诸多挑战。双馈风力发电机作为目前使用最为广