【摘 要】
:
数据挖掘是一种新型的数据分析技术.数据挖掘中的算法按照其应用不同可以分为监督学习:神经网络、支持向量机、决策树和回归等;无监督学习:聚类分析、关联规则分析;数据降维:主成分分析、因子分析等.常见的决策树算法包括:ID3算法、C4.5算法、CART算法,其中ID3算法作为最早的决策树算法,应用最为广泛.本文针对决策树中ID3算法进行深入研究,解决了该算法中存在的多值偏向、信息熵中对数运算较为复杂的问
论文部分内容阅读
数据挖掘是一种新型的数据分析技术.数据挖掘中的算法按照其应用不同可以分为监督学习:神经网络、支持向量机、决策树和回归等;无监督学习:聚类分析、关联规则分析;数据降维:主成分分析、因子分析等.常见的决策树算法包括:ID3算法、C4.5算法、CART算法,其中ID3算法作为最早的决策树算法,应用最为广泛.本文针对决策树中ID3算法进行深入研究,解决了该算法中存在的多值偏向、信息熵中对数运算较为复杂的问题.针对ID3算法存在的多值偏向问题,本文提出了一种修改信息增益函数的ID3算法,将属性与类别之间的相关系数、属性值的个数引入到信息增益函数中.改进的ID3算法减小了属性值较多且与类别相关性不大属性的信息增益值,解决了多值偏向问题;针对信息熵中复杂的对数运算,本文利用泰勒公式简化了信息熵公式,将信息熵公式中的对数运算转换为非对数运算;通过UCI上四个经典的数据集,数值检验了改进后的ID3算法的确提高了分类精确度,简化的信息熵公式降低了时间复杂度.最后,本文将改进的ID3算法应用于银行信用卡违约评估中,对其数据集中的诸如缺少属性值、属性值离散化和属性选择等问题提出了具体的解决方案.相比之下,改进的ID3算法提高了分类精确度并降低了算法复杂度,该实例也为银行工作人员提供了决策支持.
其他文献
当代大学生是中国特色社会主义事业的建设者和接班人,对其进行社会主义核心价值观教育是一项尤为重要战略任务.大学生对社会主义核心价值观认识存在缺失,表现为爱国意识弱化;
在工期紧、施工场地狭小等条件的约束情况下,深基坑的围护支撑体系采用了部分钢筋混凝土支撑+部分钢支撑的形式,提高了围护结构整体刚度和稳定性,并降低了支护结构造价,节约了成本
在2015年3月两会中李克强总理做政府工作报告时指出“全面推进现代职业教育体系建设.引导部分地方本科高校向应用型转变,促进民办教育健康发展.”独立学院是具有中国特色、与
研究目的:通过实验观察他克莫司对阿霉素肾病大鼠肾组织klotho蛋白含量变化的影响,并初步探讨他克莫司对阿霉素肾病大鼠肾组织klotho蛋白及氧化应激影响的研究。研究方法:将60只雄性wister大鼠随机分为4组即:对照组(NC组)、阿霉素肾病模型组(ADR组)、奥美沙坦脂治疗组(OLM组)和他克莫司治疗组(FK506组),每组各15只。其中ADR组、OLM组、FK506组分别给予一次性尾静脉注射
近几年来,江苏省大力建设城乡统筹区域供水工程,但长距离供水管网水中有机物特性和水质生物稳定性的变化规律却鲜有报道。本文以探究镇村供水管网水中有机物特性变化规律、保
近年来,结构的抗倒塌问题逐渐引起了国内外学者的广泛关注。结构的倒塌受力机制与梁截面尺寸、高跨比、配筋率、楼板,以及框架柱的侧向约束刚度等因素有关。目前针对结构抗倒
近年来,我国铁路交通运输业不断发展,超声无损检测作为铁路运输安全的重要保障,在机车轮对和钢轨焊缝的检测中得到广泛的应用。然而目前超声无损检测在对探伤数据的处理上缺
随着互联网信息技术的飞速发展,依托信息化管理方式实现公司日常运营、电网运行状态监管,已成为电力行业的核心发展方向。随着国家、社会不断进步,供电企业的电力质量、供应能力面临着更严格的标准。电力公司业务规模持续增大、信息化建设也越来越快,造成原有数据库容量、软件水平难以解决实际需求,因此,必须尽快完成软件、数据库系统升级。由于软硬件建设失衡,整体升级成本过大,故而仅能做到局部升级,导致系统综合性能下降
近几年来,氮化碳纳米材料引起了研究者们的广泛关注。由于它具有合成简单、成本低、抗光漂白性、生物兼容性、荧光量子产率高以及荧光可调控等优点,因此它广泛地应用于光催化