决策树分类方法及其在铁路客票营销分析中的应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:youzhangyale
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的不断发展,大量的原始数据被不断收集并存储到计算机中,而数据处理能力的低下,造成了目前信息丰富,知识贫乏的现状。数据挖掘——用非平凡的方法从大量数据中发现有用的知识,正是应此要求而迅速发展起来的一门科学。数据挖掘包含众多任务,分类是其中一项被广泛应用的技术。分类经过长期的发展已产生了众多算法,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量越来越大,建立高效的、适用于大型数据库系统的分类算法已成为数据挖掘的一个挑战性问题。 铁路中的客票系统蕴含了丰富的数据信息,如何从这海量的信息中挖掘出有用的知识,是一个亟待研究解决的问题。本文将数据挖掘中的分类技术用于铁路客票营销分析中的客票分类,形成了一种新的分类方法TT_DTC(Decision Tree Classification based on Train Tickets),该方法针对铁路客票的实际特点,采用新的基于文件分割和定量规则的决策树分类算法SF_DT(Decision Tree Classification Algorithm based on Splitting Files)对客票数据进行分析,以达到依据客票属性特征对客票发售及列车运营情况进行分类及预测的目的。该方法被用于客票分析,得出了能够指导列车营运的非平凡模式和决策信息,实现了分类技术与大规模客票数据库系统相结合的一次尝试。 TT_DTC方法以铁路客票数据为基础,以铁路客票营销分析为目的,针对铁路客票信息数据量大、属性复杂、域值广等特点,实现了从数据预处理、决策树生成到规则提取、知识产生等一系列过程。该方法完全适应铁路客票营销分析的需要,能够对客票数据进行较为有效的分析和处理,得出指导铁路营运的决策信息。 SF_DT算法以决策树分类算法ID3的基本思想为基础,用基于文件分割的方法代替原有的基于内存的算法,提高了算法的可规模性,可以处理超大规模的数据。另外,算法还产生了带有统计信息的定量规则,能够清晰地提供主类的分布情况,为数据分析提供了更为详细的信息。 通过研究,我们为分类技术的发展创建了新的应用背景,为其进一步研究奠定了应用基础。另一方面,也将数据挖掘的技术用于铁路客票营销分析,为铁路客运的合理安排及组织管理提供了丰富的决策信息。
其他文献
Internet的普及与发展赋予人们的快速海量信息交换的便捷,同时也给网络管理带来了的诸多令人头痛的内容安全性问题.在网络内容监控和过滤领域,目前存在以下问题:常用的系统承
随着计算机网络安全问题也不断增加,网络安全已逐渐发展成为人们关注的焦点。由于网络安全的综合性和立体性,单纯依靠网络安全技术不可能满足全部的安全要求,将其他学科的理论或
由于神经网络应用环境的复杂性及要求处理大量数据的问题,从而神经网络计算需要超强的计算能力,因此在神经网络计算平台中引入了网格和分布式的思想,力图建立一个基于网格的神经
随着Internet以及Web的发展,不论是电子商务还是电子政务,都逐步走向电子化的经营与管理。但随之而来的信息安全与管理问题就十分重要。 在管理大量的网络系统时,安全管理的
蛋白质折叠问题是当今生物信息学领域的核心问题之一.研究发现,蛋白质的生物学特性在很大程度上由其三维空间结构决定.人们从蛋白质折叠问题中总结出一些宜于求解的简化模型,
随着物流领域CRM产品的不断引进,面对大量堆积成山的数据,物流企业是否能够从中发掘出有用的信息为企业服务,成为企业生存发展的一个关键。 本文详细论述了数据挖掘技术及其
随着信息化的发展,电子政务的发展也越来越快。以电子政务为核心的政府信息化是推进我国国民经济信息化的关键,是一项系统工程,是国家信息化建设的重要领域。因此,标准化作为支撑
近年来,电子商务在国内外得到了广泛的应用,B2B电子商务更是得到了迅猛的发展。在新一轮的产业升级中,电子商务的发展为我国实现跨越式的发展提供了一个挈机,所以研究和开发B
论文介绍了机坪自动供油系统中的管线压力控制问题,针对供油管线中的时滞、干扰问题提出了应用专家思想的智能PID控制策略,在控制参数的寻优过程中创新性地应用数理统计的方法
借助于互联网和分布式计算技术,企业与企业之间可以完成业务的协作,这就是所谓的企业对企业(B2B)的电子商务(e-business)。在B2B的电子商务中,工作流管理系统(WfMS)起到了十分重