数据挖掘中分类算法的比较分析

来源 :天津财经大学 | 被引量 : 23次 | 上传用户:q1104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的快速大量增长以及广泛可用使我们步入了真正的数据时代。如何从海量数据中挖掘出有价值的信息已成为人们关注的重点,尤其是数据挖掘中的分类技术研究。从商业领域到工程实践领域再到生物医学领域,只要是涉及将地区、商品、人群等目标变量按照不同属性区分开来的问题,都可以使用分类技术解决。分类算法多种多样,其中常用算法主要有朴素贝叶斯方法、决策树、支持向量机、集成学习等等。然而,没有任何一种算法能够适用于所有实际问题,每种分类算法均有其各自不同特点。人们开始不仅仅满足于通过分类技术对数据集进行分析建模来为决策者提供更好的决策依据,同时更加希望能够提高解决分类问题的效率,以创造更多的价值。因此,为高效解决好分类问题,找到不同分类算法的适用环境及其优势与不足,甚至实现分类模型的自动筛选功能以提高解决分类问题的效率已成为重要需求。但国内很少有学者对原有算法的应用进行比较,国外学者Michieet曾对神经网络、统计分类和机器学习三种分类技术进行了比较,并将其应用到了实际工业问题当中。而本文将更具体的对朴素贝叶斯、决策树C5.0、支持向量机三种分类算法进行比较。在对以上算法原理与分类结果比较准则进行基础介绍之后,分别选用了涉及社会、商业、生物、经济领域的四个具有不同实例数、缺失值个数、用于预测的属性个数、目标类别个数的具有一定代表性的实验案例,然后应用以上三种典型分类算法分别建立分类模型,最后在分类结果准确率、分类算法稳定性、分类算法所得结果的可解释性、分类器运行速度、处理含有缺失值数据集的效果等方面分别对三种算法进行比较与分析,得出了以上三种算法应用于不同特点数据集时的优点与不足。最终通过实验结果发现,支持向量机分类算法在对历史数据的依赖性、分类结果准确率、算法稳定性方面,较其他两种分类算法均具有明显的优势。决策树算法在运行速度、所得结果的可解释性方面,较其他两种算法均具有明显的优势。朴素贝叶斯算法在处理含有缺失值数据集时效果均好于其他两个算法。因此,当实际问题中所能获取的样本量相对较少时,采用支持向量机算法的效果最佳,而面对海量数据,决策树算法最具效率,当所收集到的数据集包含大量缺失值时,朴素贝叶斯算法的效果更好。
其他文献
在商品经济不断发展的今天,企事业机构对礼仪教育的重视程度日益提高。遗憾的是,当前,以表现形式教育为主的礼仪教学,其教育核心都是以制度、规范、操作为基础的,教授的内容
近年来,随着美国经济危机的加深,美国社会保守主义有复苏的倾向。在司法上,美国联邦法院中的保守势力也有所抬头,其表现就是在涉外民事诉讼领域,法院开始收缩长期以来形成的
目的观察加味四物汤(mSWT)对心肌梗死(MI)小鼠骨髓干细胞动员的影响,探讨mSWT改善心室重构的机制。方法结扎冠状动脉前降支建立小鼠MI模型,灌胃给予mSWT,小鼠被分为4组:假手
作为后现代西方理论的重要成果,互文性理论在文本关联属性、构成方式、阐释策略等方面提出了与以往批评理论不同的见解,为独创性问题提供了很好的视角。互文性理论的意图不是
<正>上海市目前所有地铁站均实施进站安检,安检所用的X射线行李包检查系统(简称"安检系统")属于X射线发生装置,不能划为辐射豁免范畴[1-4]。为了解上海市松江区地铁站安检系统
面对新一轮科技和产业革命,国家大学科技园要尽快适应经济新常态发展的规律,发展新产业、新业态、新技术,探索示范新观念、新模式、新做法。本文运用SWOT分析方法,以中国石油
为了剖析葛浩文在英译中国现当代小说时的译者主体性特征,以生态翻译学为理论框架,从语言维、文化维、交际维之三维视角分析了其译者主体性的体现.研究分析发现,葛浩文英译时
<正>1杜鹃属特点杜鹃属(Rhododendron)隶属杜鹃花科。常绿或落叶灌木,稀乔木,全体被鳞片、刚毛、丛卷毛、绵毛、毡状毛或无毛。叶互生,全缘或稀具细齿,背面被鳞片、分枝丛毛
<正>2015年,联合国可持续发展峰会通过了2030年可持续发展议程,为未来15年世界各国发展合作勾勒出了宏伟蓝图。2016年7月,李克强总理在北京人民大会堂同欧洲理事会主席图斯克
外科护理学是一门理论性和操作性都很强的学科,然而目前“课堂理论教学+临床实践”的两点式教育模式导致学生临床技能低下。如何加强外科护理学实验教学,提高护生的实践能力是亟