论文部分内容阅读
伴随着计算机技术的飞速发展,信息时代的到来使得各行各业尤其是网络的数据急剧增大,粗糙集理论作为一种处理不一致(inconsistent)、不确定(uncertainty)、不完备(incomplete)知识的数学理论,不但在学术界得到了越来越多的关注,也在产业界得到了普遍应用。作为数据挖掘、机器学习与知识发现、决策支持等方面的一种有效的智能信息处理工具,粗糙集理论已经成为了信息科学理论和应用研究中的一个热门领域。针对粗糙集的粗糙性度量问题,本文首先讨论了现有的Pawlak粗糙性度量方法的特征和缺点,以粗糙集的下精确度和上精确度作为粗糙性的基本度量因子,构建了基于效用的粗糙性度量模式(简称为效用粗糙度,并简记为ERD)。给出了几种基于不同的综合效用函数的效用粗糙性度量方法并从不同的角度分析了ERD对综合效用函数的依赖特征;同时我们给出了ERD不变的几个充分必要条件,分析了ERD的性质。同时,作为ERD的一种应用,本文提出了基于效用粗糙度的属性约简方法(简记为ERD-RM),并结合效用粗糙度的性质和具体案例,从不同的层面讨论了ERD-RM与现有约简方法的联系与区别。最终我们结合UCI数据库中的4个数据集对比分析了ERD-RM的特点及可行性和高效性。理论分析和实例应用表明,ERD具有较好的构造特性和可解释性,能够简便地将决策意识融合到粗糙性的度量体系中,不仅在一定程度上丰富了现有的相关理论,而且在归纳学习、人工智能、信息科学、生物科学、数据挖掘等领域具有广泛的应用价值。