论文部分内容阅读
信息化社会的到来,数据存储量急剧上升。然而,尽管面临大量(甚至是海量)的真实、有价值的数据,决策者却很难从这些数据中提取出有价值的知识,因为这些数据从表面上看,往往是杂乱的、单维的。面对这一挑战,数据挖掘应运而生,随着计算机性能提高、成本下降以及数据管理技术的成功运用,数据挖掘正越来越多的应用于各类决策体系中。数据挖掘有许多研究方向,关联规则挖掘是其中最活跃的研究方向之一,它反映了大量数据中项目之间的有意义关联或相关联系,其中最经典的算法是Apriori算法。但是该算法在挖掘频繁项集时需要产生大量的候选项集,多次扫描数据库,时间空间复杂度过高。针对这一局限性,如何提高挖掘算法的效率就成为了关联规则挖掘研究的核心问题。本文对关联规则挖掘算法进行了深入地研究,提出了一种改进方法,并将此方法应用于上海大众汽车有限公司采购信息的数据挖掘中,得到可供决策参考的关联规则。本论文具体工作如下:1.理论介绍。对数据挖掘和关联规则的基本理论进行了详尽的阐述,通过理论介绍为算法研究和系统应用奠定了基础。2.算法介绍和改进。在理论认识的基础上,深入分析了关联规则挖掘经典算法Apriori。针对关系数据库中关联规则挖掘的特点,提出了一种基于编码的新算法Coding-Apriori,对其从理论、流程各方面进行了详细介绍并演示了其实现步骤。最后通过实验将Coding-Apriori算法和Apriori算法进行了比较,验证了改进算法的有效性和优势。3.系统应用。针对上海大众采购信息数据库,设计开发了一个简易的专业数据挖掘系统,系统可以选择性地采用经典的Apriori算法和新提出的Coding-Apriori算法进行关联规则的挖掘。系统应用部分既是对算法研究和改进的一种实际验证,又是对数据挖掘应用领域的一种开拓,实现了理论研究与实际应用的结合。