论文部分内容阅读
在信息社会,数据库中充斥着大量的数据。为了在数据海洋中获取有用的信息,数据库中的知识发现技术(KDD)作为一门最热的研究领域出现了。关联规则挖掘是数据挖掘的一个重要分支,是描述数据库中数据项(属性、对象)间存在的潜在关系。关联规则挖掘的主要任务是发现频繁项集,目前发现频繁项集的算法可分为3种:1、层次算法。Apriori算法就是最典型的算法,然而这种算法的执行效率不尽人意。2、通过生成最大频繁项集从而发现频繁项集的算法。例如Princer-Search算法等,然而由于其理论缺陷导致生成的关联规则丢失了部分有用的信息。3、基于形式概念分析(FCA)和概念格的关联规则提取算法。这种算法在执行效率上要优于Apriori算法,并且能同时生成完整的关联规则集。而目前所使用的关联规则挖掘算法只是简单地根据最小支持度和置信度将关联规则提取出来,这样常常会产生大量的规则,使得用户分析和利用这些规则变得十分困难,尤其是数据库中属性高度相关时,问题更为突出。因此,必须对挖掘的关联规则进行处理,以便更好地理解所挖掘的规则。而概念格作为数据挖掘的一种重要的手段,如果能够直接从概念格上提取出简洁的关联规则,则可使用户从挖掘出的海量的关联规则中解脱出来,以便于用户发现更有用的信息,同时也提高规则发现的速度,这对于数据挖掘有着重要的意义。本文在已有的各种从概念格上提取关联规则的算法的基础上,重点对关联规则的冗余删除进行了研究。通过分析概念格的数学性质以及冗余关联规则的性质,发现通过概念格上子概念和其父概念的内涵关系以及概念内涵的最小集合性质,从而得到规则的最小前件和最大后件。利用这样的规则可推导出同样满足最小支持度和最小可信度的其他规则,从而生成完整的关联规则集。本文的主要贡献如下:1、通过对关联规则中冗余规则的形式和性质的研究,应用形式概念分析理论得到了消除冗余规则的方法;提出了无冗余精确关联规则基和无冗余近似关联规则基两个概念,并设计了建立这两个规则基的运算算法。2、设计了在概念格上提取无冗余关联规则的NARG算法,实验结果表明该算法能够提取出最小的无冗余关联规则基,且不丢失数据库中的有用信息。3、将本文的研究成果应用于实践:集成到了IsoFCA系统中;在财政收支分析中获得了成功有效的应用。