论文部分内容阅读
数据挖掘技术是当前机器学习、人工智能、计算机科学和数据库研究方向的重要课题,它从已有的数据中分析、提炼和挖掘出先前未知的、新奇的、对决策有潜在应用价值的知识。数据挖掘是发现数据中存在的关系和规则,挖掘数据背后隐藏的知识的手段。关联规则挖掘是从数据库中得出数据相关性的代名词,已经成为数据挖掘的一个重要研究内容,当前的研究主要是集中在如何提高关联规则挖掘的效率上面。本文对数据挖掘技术和关联规则挖掘进行了系统的分析和研究,并在关联规则的基础上改进了两个算法。本文的工作主要在以下几个方面:(1)对数据挖掘的基本理论知识和分类进行了总体研究,重点分析了关联规则的基本思想,并对关联规则的相关算法进行了详细介绍。(2)在分析关联规则基本理论的基础上,改进了一种基于矩阵的关联规则挖掘算法,通过扫描将数据库映射为0-1矩阵,引入了向量内积的思想,直接在矩阵上进行运算,避免了反复扫描的过程,理论分析和实验证明了改进算法在效率上的提高。(3)通过具体分析经典Apriori算法的性能,对其进行了改进。在自然连接以前先进行一个修剪过程,减少参加连接的项集数量,减小生成的候选项集规模,减少了循环迭代次数和运行时间,同时在连接判断步骤中减少多余的判断次数。