改进的C4.5算法及其在地质调查项目管理中的应用研究

来源 :兰州交通大学 | 被引量 : 3次 | 上传用户:abcwangyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各行业信息化的日益普及,所产生的数据量激增,但是却出现了“数据海量,知识贫乏”的局面。数据挖掘为解决这个问题提供了新的契机。数据挖掘是从大量的、复杂的、随机的数据之中提取有价值信息和知识的过程。在这个过程之中,对数据进行分类是数据挖掘研究领域比较重要的课题。目前用于分类的方法有很多种,比较经典的有决策树算法、遗传算法、关联规则、神经网络、粗糙集方法等。决策树算法因其分类准确率高、容易理解等优点被人们广泛应用。而C4.5算法是决策树算法中最为典型的算法之一,它不仅继承了CLS、ID3等算法的优点,而且对其部分缺陷进行了优化,使其在数据挖掘研究领域被众多研究者所广知。但是C4.5算法也存在某些缺陷。比如在决策树构造的过程中,需要对数据集进行多次的排序和顺序扫描,因而导致算法的低效以及过度分支等问题。鉴于此,本文针对C4.5算法存在的缺陷进行了优化,并以地质调查项目信息管理系统中已有的项目数据为基础,利用改进的C4.5决策树,挖掘出项目投入和项目最终成果之间的关系,为决策者提供了决策依据。本文的主要研究内容包括:(1)CLS算法、ID3算法和C4.5算法的性能分析和比较。通过比较经典算法的特点和优势,为改进C4.5算法提供理论基础;(2)C4.5算法的改进。针对C4.5算法的缺点,提出一种高效的改进C4.5算法;(3)利用改进C4.5算法,在地质调查项目管理可视化系统中进行数据挖掘应用。本文的主要创新点有:(1)提出了一种基于SQL的高效C4.5决策树算法的实现方案,并引入容错率的概念进一步提高了算法的执行效率;(2)利用优化后的C4.5算法对地质调查项目数据进行数据挖掘,并将数据挖掘的结果应用于地质调查项目管理可视化系统之中。本文的研究成果对于决策树算法的研究者和使用者有着重要的参考意义,为地质调查项目的管理者和决策者提供了决策的理论依据。
其他文献
土地资源可持续利用是《21世纪议程》的重要内容,对不同尺度、不同区域土地资源可持续利用评价的研究得到了国内外的广泛关注。本文以广东连山壮族瑶族自治县为研究对象,探索经
目前,大多数光学遥感卫星和许多现代的航空数字相机都能同时获取多光谱影像和全色影像。凭借能够有效地结合全色影像的纹理特征和多光谱影像的光谱特征的能力,影像融合在遥感
本文以杨梅镇为例,以植被的野外样方调查数据为基础,尝试了以相对优势度为量度方法对物种在群落中地位和功能进行排序,并将相对优势度与应用广泛的重要值和综合优势比进行比较。
家庭旅馆是指居民利用自家房屋多余的房间,提供给游客食宿服务的一种小型旅馆。我国家庭旅馆的出现,是在大众旅游兴起的背景下,旅游接待设施供不应求的产物。通过国内外对家庭旅
学位