论文部分内容阅读
粗糙集理论是一种新的处理模糊和不确定知识的软计算工具。它能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,近年来在机器学习、数据挖掘等多个领域得到广泛应用。粗糙集是知识获取的一种方法。作为当前的研究热点,在知识获取的研究中尚存在一些问题未能解决,我们对其中两个主要问题--求核问题和增量式知识获取模型进行了研究和讨论,得到了较好的结果。属性约简是知识获取中最重要的部分之一。决策表核属性的确定往往是信息约简过程的出发点和关键。以前的可辨识矩阵求核算法由于忽略了某些因素而产生错误结果,叶东毅在新的求核算法中虽然把错误改正了,但算法复杂度明显提高。本文在定义的合并规则的基础上提出一种求核算法,该算法不仅改正了以前可辨识矩阵求核法的错误,而且在性能上优于叶东毅和Hu Xiaohua的求核算法。近几年在粗糙集理论研究中对求解属性的最小约简或较小约简以及求取最简规则集[1-3]的算法已经进行了一些研究,但这些研究都是针对静态数据的。而数据库是动态的,因此许多研究者建议[4-6],数据库知识发现算法应该是增量式的。属性最小约简的增量式算法以及增量式更新概念格的算法已经开始被研究,但对于增量式的知识获取算法的研究工作还比较少。
本文在以上工作的基础上,研究了增量式知识获取问题,发现当把知识的树结构和粗糙集的知识获取思想进行结合后,对于增量式学习的数据可以取得好的学习效果。在此基础上,我们提出基于粗糙集和规则树的增量式知识获取算法(RRIA)。实验表明,RRIA比传统粗糙集知识获取算法不仅具有更快的学习速度,而且生成的规则对样本的识别率可以达到甚至超过传统粗糙集知识获取算法;同时,我们还把RRIA算法与ID4算法进行了比较测试,结果表明RRIA算法无论规则的质量还是正确识别率都优于ID4算法。