决策树在数据预处理中的应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:rgr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是数据库、人工智能、机器学习等领域相结合而产生的一个新兴的、具有广泛应用前景的研究领域.数据挖掘就是从大量的历史数据中发现隐含的、有潜在应用价值并最终能被人理解的知识的过程.在决策领域,人们所面对的数据往往具有不确定性和不完整性,从这类数据中发现知识是一个非常困难的问题.数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能.由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要的步骤.目前,数据挖掘的大量研究工作集中在挖掘算法上,而对预处理环节重视不够.该文从数据挖掘的基本概念入手,结合粗糙集的基本理论,利用决策树的理论和方法,从多方面研究了数据挖掘过程中数据预处理的问题:1)不完全决策表的数据填充和规则提取.不完全信息系统中遗失数据的补充和规则的提取,一直是数据挖掘技术面临的重要问题.该文给出了一种基于决策树来求解此问题的算法.对于给定的不完全决策表,该算法应用改进的ID3算法来构造决策树,在构造决策树的过程中对遗失值进行补充.对于不能在决策树上补充的遗失值,定义了一种相关对象之间的相似度来填充.从构造的决策树上提取规则.该算法简单,易于操作,我们通过实例详细说明了该算法.2)具有连续属性的决策表的属性离散化.由于粗糙集理论研究的对象只能是离散值对象,对于值域是连续的数据库常常需要进行离散化处理.该文结合粗糙集理论,给出了一个基于决策树的连续属性的离散化方法.此算法可以有效的从候选割集中找到较优的子割集,实现连续属性的离散化.从决策树上可以看到离散化的过程,易于对不满意割的修改.文中我们通过详细的例子说明了该算法.
其他文献
该文主要研究λK的因子分解问题.首先,我们给出了λK存在K因子分解的一个必要条件,其中k是任意正整数.其次,当λ=1,p,…,p的时候,我们给出了λK存在K因子分解的一个充分条件,
该文通过Lax对非线性化方法将一个含有四个位势薛丁谔型谱问题相联系的孤子方程族分解为一类新的有限维Hamiltonian系统,利用守恒积分的母函数,证明了此有限维Hamiltonian系
整个文章安排如下:第一章介绍了独立分量分析的基本背景和应用领域,给出几个ICA的基本模型以及假设条件.第二章给出必要的预备知识.主要包括梯度概念,因为独立分量分析问题,
运用变分法讨论渐近线性Dirichlet问题正解及多重解的存在性.该文一方面对已有文献的结论加以推广,另一方面,运用临界点理论中的几个多解定理得到一些新的多重解的存在性结果
该文所考虑的对象是多复变数中的一些全纯函数空间和加权复合算子.主要内容如下:1、定义了单位球Bn上的几个加权函数空间HLpρ,Zpρ,Bpρ和Jpρ.研究这些函数空间中函数的增