论文部分内容阅读
粗糙集理论是一种新型的处理含糊和不确定性知识的数学工具,它能够分析隐藏在数据中的事实,且不需要关于数据的任何附加知识。该理论以其独特的优势赢得越来越多的研究者的关注,并在各个领域得到了广泛的应用。本文的研究工作主要包括以下几个方面: (1) 偏好关系下的最优约简:现有粗糙集中求取所有约简的算法是典型的NP-问题,这在一定程度上限制了粗糙集理论的广泛应用,其中的一个主要原因是在求取约简的过程中可能同时存在多个可以缺省的属性,删除不同的属性将形成不同的约简,因此在选择可以删除的属性时存在冲突。在研究过程中,我们采用了人工智能领域中解决冲突的办法—偏好关系,在属性上加上偏好关系后,约简在该偏好关系下是有序的,通过对特殊情况的归纳,我们设计了一种特殊的树,并由此得到了获取偏好关系下的最优约简的算法。最后,通过在属性的可缺省性与函数依赖之间建立对应关系,我们改进了算法,提高了其有效性。 (2) 粗糙集理论与熵理论:在粗糙集理论中,知识被看成是一种分类能力,即在域上构造分区的能力。从信息论的角度上讲,知识是那些对我们有用的信息,而信息是从数据中提取出来的,对于信息中的数据存在着不确定性,信息论中采用熵这种尺度来量化地衡量这种不确定性。因此,在粗糙集理论中运用熵理论衡量知识具有理论上的可行性。研究过程中,我们提出了知识熵的概念,从代数的角度讨论了知识熵的性质,并从粗糙集理论的核心之一——属性的可缺省性出发,在粗糙集理论的基本概念与知识熵之间建立对应关系,通过这种机械式的数字计算来得到粗糙集理论中的一些基本概念,如约简,核等。 (3) 基于偏序关系的粗糙集理论扩展:在现有的研究成果中,已经有着许多对粗糙集理论进行的扩展,如基于容差关系的扩展,基于相似关系的扩展等。研究针对Sai,Ying与Yao,Y.Y.提出的在有序信息表中进行挖掘的方法,提出了一种基于偏序关系的粗糙集理论框架,并可以在此框架下挖掘任何有序信息。算法分析与实验表明,该方法的复杂度是前述方法的1/n~2,其中n是域中所含的样本数。