论文部分内容阅读
随着各行业信息化的日益普及,所产生的数据量激增,但是却出现了“数据海量,知识贫乏”的局面。数据挖掘为解决这个问题提供了新的契机。数据挖掘是从大量的、复杂的、随机的数据之中提取有价值信息和知识的过程。在这个过程之中,对数据进行分类是数据挖掘研究领域比较重要的课题。目前用于分类的方法有很多种,比较经典的有决策树算法、遗传算法、关联规则、神经网络、粗糙集方法等。决策树算法因其分类准确率高、容易理解等优点被人们广泛应用。而C4.5算法是决策树算法中最为典型的算法之一,它不仅继承了CLS、ID3等算法的优点,而且对其部分缺陷进行了优化,使其在数据挖掘研究领域被众多研究者所广知。但是C4.5算法也存在某些缺陷。比如在决策树构造的过程中,需要对数据集进行多次的排序和顺序扫描,因而导致算法的低效以及过度分支等问题。鉴于此,本文针对C4.5算法存在的缺陷进行了优化,并以地质调查项目信息管理系统中已有的项目数据为基础,利用改进的C4.5决策树,挖掘出项目投入和项目最终成果之间的关系,为决策者提供了决策依据。本文的主要研究内容包括:(1)CLS算法、ID3算法和C4.5算法的性能分析和比较。通过比较经典算法的特点和优势,为改进C4.5算法提供理论基础;(2)C4.5算法的改进。针对C4.5算法的缺点,提出一种高效的改进C4.5算法;(3)利用改进C4.5算法,在地质调查项目管理可视化系统中进行数据挖掘应用。本文的主要创新点有:(1)提出了一种基于SQL的高效C4.5决策树算法的实现方案,并引入容错率的概念进一步提高了算法的执行效率;(2)利用优化后的C4.5算法对地质调查项目数据进行数据挖掘,并将数据挖掘的结果应用于地质调查项目管理可视化系统之中。本文的研究成果对于决策树算法的研究者和使用者有着重要的参考意义,为地质调查项目的管理者和决策者提供了决策的理论依据。