论文部分内容阅读
属性约简是粗糙集理论的研究热点之一,它是一种保证属性分类能力不变的前提下,剔除冗余属性的过程。通过属性约简,可以实现数据表的列压缩,从而降低数据挖掘的数据量,提升挖掘效率。目前基于粗糙集的属性约简算法多数只适用于离散型数据。然而,在现实工作中,不仅有符号、类别等离散型数据,更有大量的连续型数据,甚至二者的混合。因此,在粗糙集属性约简算法的应用中,通常先对连续数据进行离散化处理。然而,离散化处理过程难以保存属性在数值上的差异,难免造成一定程度的信息损失。因此本文深入研究以往文献,提出了一种基于模糊聚类和粗糙集的连续值属性约简算法。基于模糊聚类和粗糙集的连续值属性约简算法主要分为两个部分:第一部分,引入模糊聚类,将属性值上的模糊性转化为对象关系的模糊性,并以此得到论域对象的划分,这部分相当于粗糙集属性约简中的等价类划分;第二部分,同样运用模糊聚类,将相似度贴近的属性聚为一类,并从每一类中选择代表性的属性构成约简属性子集,而在属性子集的评价上,结合了粗糙集依赖度的概念。通过模糊聚类和粗糙集结合算法得到的属性约简,综合考虑了属性的相异性与相关性,在保证属性信息覆盖广度的同时,降低了约简过程的信息损失,并在依赖度概念上保持了信息系统的分类能力不变。区别于以往粗糙集的启发式属性约简算法,基于模糊聚类和粗糙集的属性约简不需要计算核属性,也省去了逐层逐个计算属性重要度的过程,因而在算法上有所提升。最后通过7组UCI标准数据集以及3组经济金融数据的仿真实验,表明本文提出的算法有效,并且在进一步的决策树分类中,基于约简属性的预测精度多数情况下高于全部条件属性的预测精度。