论文部分内容阅读
数据挖掘技术能够从海量数据中挖掘有价值的信息,是处理大数据最有效的技术方法之一。分类是数据挖掘中最重要的内容之一,分类技术被广泛应用在科研和智能商业活动中。决策树方法又是分类技术最重要的方法之一。经过将近50年的研究发展,已经出现了多种先进的决策树分类算法。其中,ID3(Iterative Dichotomize)算法是最著名的决策树算法,也是其他多数决策树算法的研究基础。因为理论清晰,方法简单,容易实现,易于理解,且分类效果较好,ID3算法被学者们广泛研究。然而ID3算法也有显著的缺点:如选择分裂属性时,倾向于选择那些有较多属性值的属性;决策树在构建过程中,没有对树进行优化;ID3算法的表达式逻辑性有待加强等。对ID3算法的研究,本文主要做了如下工作:1、从理论上讨论分析了ID3算法多值偏向的原因。在理论分析过程中,主要做了以下两方面的尝试创新:(1)基于粗糙集理论创造性引入属性重要度概念。(2)分析了属性在增加属性值时对其他属性的属性重要度的影响。2、提出了改进的决策树算法——SID3算法。针对ID3算法的一些不足,SID3算法引入与属性值个数相关函数,简化ID3算法表达式,增加前剪枝技术。经过实验验证,SID3算法克服了ID3算法在属性选择时的偏向多值属性缺点,减少了计算量,增强了算法的逻辑性,增加剪枝技术,优化决策树。综合来讲,SID3算法在构建决策树时效率更高、构建的决策树的形状结构更加合理及判别精确率更加高。3、最后基于visual Studio平台,用C sharp编程语言软件实现基于ID3及SID3算法的决策树智能系统,并应用在数字医疗诊断方面。