论文部分内容阅读
近年来,由波兰科学家Pawlak提出的粗糙集(Rough Set)理论已成为一种重要的数据挖掘与知识获取方法。粗糙集方法是一种处理不精确、不确定或模糊知识的重要的数学工具。由于粗糙集理论是基于完备信息系统提出的,而现实生活中绝大多数信息系统都是不完备的,即信息系统中的某些对象的属性值是未知的。因此,将粗糙集应用于不完备信息系统就需要对经典粗糙集模型进行扩展。利用粗糙集的扩展模型代替经典粗糙集的等价关系模型处理不完备信息系统是现今粗糙集的研究领域之一。
本文主要研究了应用于不完备信息系统的粗糙集扩展模型及其知识约简的方法。本文的主要贡献在于研究了以下几个方面的内容:
首先,综述了粗糙集的理论研究现状,分析归纳了处理缺失数据问题的常用方法;介绍了国内外利用粗糙集处理不完备信息系统的几种扩展关系模型,其中主要有容差关系、非对称相似关系、量化容差关系、限制容差关系。
然后,在分析探讨非对称相似关系模型和限制容差关系模型的基础上,提出了一种新的扩展模型,即相似限制容差关系模型,并给出了该模型的定义,包括相似限制关系、上近似集、下近似集及相似限制容差类的定义,及其相关的性质。另外,通过理论分析和实例说明了该模型的有效性和优越性。随后,基于相似限制容差关系模型,提出了一种适用于不完备信息系统的改进的属性约简算法,即改进的属性重要度的属性约简算法,并且给出了这种方法的算法流程。
最后,设计并实现了相似限制容差关系模型,利用该模型处理了几个不完备数据集,将实验结果与用粗糙集软件—Rosetta处理的结果进行了对比分析,证明了本文提出的改进模型及约简算法能够在不影响原始数据分类效果的基础上对不完备信息系统进行有效地约简,提高了对不完备信息系统进行知识获取的整体性能及准确度。