论文部分内容阅读
数据挖掘是数据库、人工智能、机器学习等领域相结合而产生的一个新兴的、具有广泛应用前景的研究领域.数据挖掘就是从大量的历史数据中发现隐含的、有潜在应用价值并最终能被人理解的知识的过程.在决策领域,人们所面对的数据往往具有不确定性和不完整性,从这类数据中发现知识是一个非常困难的问题.数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能.由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要的步骤.目前,数据挖掘的大量研究工作集中在挖掘算法上,而对预处理环节重视不够.该文从数据挖掘的基本概念入手,结合粗糙集的基本理论,利用决策树的理论和方法,从多方面研究了数据挖掘过程中数据预处理的问题:1)不完全决策表的数据填充和规则提取.不完全信息系统中遗失数据的补充和规则的提取,一直是数据挖掘技术面临的重要问题.该文给出了一种基于决策树来求解此问题的算法.对于给定的不完全决策表,该算法应用改进的ID3算法来构造决策树,在构造决策树的过程中对遗失值进行补充.对于不能在决策树上补充的遗失值,定义了一种相关对象之间的相似度来填充.从构造的决策树上提取规则.该算法简单,易于操作,我们通过实例详细说明了该算法.2)具有连续属性的决策表的属性离散化.由于粗糙集理论研究的对象只能是离散值对象,对于值域是连续的数据库常常需要进行离散化处理.该文结合粗糙集理论,给出了一个基于决策树的连续属性的离散化方法.此算法可以有效的从候选割集中找到较优的子割集,实现连续属性的离散化.从决策树上可以看到离散化的过程,易于对不满意割的修改.文中我们通过详细的例子说明了该算法.