基于覆盖粗糙集理论决策树的构造

论文部分内容阅读

粗糙集是一种用来处理不精确、不确定数据的数学方法,可以用来发现隐藏在数据中的知识。粗糙集理论已经成功地应用到机器学习、数据挖掘、模式识别等领域。属性约简作为粗糙集研究的核心内容,可以删除决策系统中的冗余属性,提高工作效率,节省存储空间,降低系统计算的复杂度。经典粗糙集通过属性对论域划分定义等价关系,仅可以处理属性取值为单值的数据集,对于样本取值为集值、缺失值的一些特殊问题还不能解决。覆盖粗糙集通过覆盖代替划分解决属性取集值的问题。决策树学习是一种逼近离散值函数的分类方法,其核心任务就是把所有样例分类到离散值所对应的类别中。目前,决策树已成功地应用到文本学习、信用风险评估和天体分类等众多领域。现对本文的主要工作总结如下：1.在第三章中,对于不一致的集值决策系统,定义了一种基于覆盖粗糙集的,且保持置信度较高的可能性规则的置信度不低于给定阈值的θ-属性约简,推广了基于覆盖粗糙集的属性约简。本文通过辨识矩阵中的极小元素计算θ-属性约简,既可以删除决策系统中的冗余属性,降低决策系统的计算复杂度,同时可以处理决策系统的噪声与不一致性。2.在第四章中,针对不一致决策系统,本章通过信息增益与置信度生成决策树。在决策树的生成过程中,利用信息增益选取结点,根据置信度确定决策树中规则的长度避免过度拟合,及早停止树的增长。此算法不仅提取了所有置信度不低于给定阈值θ的可能性规则,而且省去了对决策树修剪的步骤,并通过置信度刻画决策树中的可能性规则。由此构造的不一致决策树不仅结构简单,而且包含了所有置信度不小于阈值的决策规则,可以刻画决策系统的不一致性。在本章最后部分,我们通过数值实验验证了不一致决策树算法的可行性。

其他学术论文