论文部分内容阅读
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。面对这一挑战,数据挖掘技术应运而生。数据挖掘(Data Mining,DM)就是从大量的数据中挖掘出人们感兴趣的知识,它是一类深层次的数据分析方法,被认为是解决“数据爆炸知识贫乏”的有效方法之一,最近几年里已被数据库界广泛研究。经过若干年的研究和实践,其经济价值已经显现出来,被广泛应用于科学研究、金融投资、市场营销、保险、医疗卫生、产品制造业、通信网络管理等行业。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。
本文对KDD(Knowledge Discovery in Databases,数据库中的知识发现)、数据挖掘(Data Mining)和关联规则(Association Rules)等概念作了阐述,为深入讨论作了充分的准备。在对现有关联规则文献的研究基础上,详细的分析了关联规则的基本概念和基本性质,并且对关联规则的典型频繁集挖掘算法Apriori算法进行了归纳、分析和研究,为Apriori改进算法的提出和构造建立了理论上的必要性前提。
本文的重点是Apriori算法的分析研究和改进设计。在研究经典Apriori算法的基础上,给出了一个新的算法,分别从减小事务数据库与候选项目集中的项目规模和引入加权支持度两个方面对Apriori算法进行了优化与改进:一方面,针对在Apriori算法下,要扫描的事务数据库规模与Apriori算法生成的候选频繁项目集个数过多这两个瓶颈问题,新算法尽量缩减两者的规模,使之尽可能高效的产生出频繁项集;另一方面,针对数据库中项目分布不均匀,出现概率相差较大,所挖掘出的关联规则将可能涉及不到出现频率较低的项目的问题,通过给它们赋以不同权值,即引入加权支持度,从而可以挖掘出Apriori挖掘不出但却极具价值的规则。经过优化改进,新算法在时间上的消耗要少于Apriori算法,提高了算法的效率;同时,由于加入权值,使得算法能够挖掘出隐藏在小概率事件后的关联规则,而这些规则恰恰是一般算法易于丢弃或挖掘不出的。