论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,已被公认为是数据库研究中一个极富应用前景的领域。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项集又是挖掘关联规则的关键问题之一。Apriori算法、FP-growth算法和Eclat算法是经典的频繁项集挖掘算法,但在候选项集的产生、扫描数据库的次数及内存要求方面仍然存在着一定的问题。在分析了经典算法的基础上,本文主要在以下几个方面研究了基于矩阵的关联规则挖掘算法。首先,针对现有频繁项集挖掘算法中产生大量的候选项集和扫描数据库次数过多的问题,结合向量运算理论和项目邻接表,把事务数据库中的各个项目组织到项目邻接表中,提出了一次性产生频繁项集的基于项目邻接表的频繁项集挖掘算法。其次,针对现有算法在寻找最大频繁项集的过程中需多次扫描数据库,侯选项集过多,支持度计算过于复杂等问题。把事务数据库中的各个项目组织到事务树中,通过遍历事务树能直接快速的找到最大频繁项目集。最后,传统算法在生成关联规则时,生成的关联规则之间存在着大量的冗余和无效的规则,或者漏掉了一些有用的规则。针对这些问题,提出了一种有效关联规则挖掘算法,在该算法中,增加了新的关联规则度量标准——参考置信度,能够生成用户感兴趣的有效关联规则。