论文部分内容阅读
数据的快速大量增长以及广泛可用使我们步入了真正的数据时代。如何从海量数据中挖掘出有价值的信息已成为人们关注的重点,尤其是数据挖掘中的分类技术研究。从商业领域到工程实践领域再到生物医学领域,只要是涉及将地区、商品、人群等目标变量按照不同属性区分开来的问题,都可以使用分类技术解决。分类算法多种多样,其中常用算法主要有朴素贝叶斯方法、决策树、支持向量机、集成学习等等。然而,没有任何一种算法能够适用于所有实际问题,每种分类算法均有其各自不同特点。人们开始不仅仅满足于通过分类技术对数据集进行分析建模来为决策者提供更好的决策依据,同时更加希望能够提高解决分类问题的效率,以创造更多的价值。因此,为高效解决好分类问题,找到不同分类算法的适用环境及其优势与不足,甚至实现分类模型的自动筛选功能以提高解决分类问题的效率已成为重要需求。但国内很少有学者对原有算法的应用进行比较,国外学者Michieet曾对神经网络、统计分类和机器学习三种分类技术进行了比较,并将其应用到了实际工业问题当中。而本文将更具体的对朴素贝叶斯、决策树C5.0、支持向量机三种分类算法进行比较。在对以上算法原理与分类结果比较准则进行基础介绍之后,分别选用了涉及社会、商业、生物、经济领域的四个具有不同实例数、缺失值个数、用于预测的属性个数、目标类别个数的具有一定代表性的实验案例,然后应用以上三种典型分类算法分别建立分类模型,最后在分类结果准确率、分类算法稳定性、分类算法所得结果的可解释性、分类器运行速度、处理含有缺失值数据集的效果等方面分别对三种算法进行比较与分析,得出了以上三种算法应用于不同特点数据集时的优点与不足。最终通过实验结果发现,支持向量机分类算法在对历史数据的依赖性、分类结果准确率、算法稳定性方面,较其他两种分类算法均具有明显的优势。决策树算法在运行速度、所得结果的可解释性方面,较其他两种算法均具有明显的优势。朴素贝叶斯算法在处理含有缺失值数据集时效果均好于其他两个算法。因此,当实际问题中所能获取的样本量相对较少时,采用支持向量机算法的效果最佳,而面对海量数据,决策树算法最具效率,当所收集到的数据集包含大量缺失值时,朴素贝叶斯算法的效果更好。