论文部分内容阅读
随着计算机科学的不断发展,大量的原始数据被不断收集并存储到计算机中,而数据处理能力的低下,造成了目前信息丰富,知识贫乏的现状。数据挖掘——用非平凡的方法从大量数据中发现有用的知识,正是应此要求而迅速发展起来的一门科学。数据挖掘包含众多任务,分类是其中一项被广泛应用的技术。分类经过长期的发展已产生了众多算法,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量越来越大,建立高效的、适用于大型数据库系统的分类算法已成为数据挖掘的一个挑战性问题。 铁路中的客票系统蕴含了丰富的数据信息,如何从这海量的信息中挖掘出有用的知识,是一个亟待研究解决的问题。本文将数据挖掘中的分类技术用于铁路客票营销分析中的客票分类,形成了一种新的分类方法TT_DTC(Decision Tree Classification based on Train Tickets),该方法针对铁路客票的实际特点,采用新的基于文件分割和定量规则的决策树分类算法SF_DT(Decision Tree Classification Algorithm based on Splitting Files)对客票数据进行分析,以达到依据客票属性特征对客票发售及列车运营情况进行分类及预测的目的。该方法被用于客票分析,得出了能够指导列车营运的非平凡模式和决策信息,实现了分类技术与大规模客票数据库系统相结合的一次尝试。 TT_DTC方法以铁路客票数据为基础,以铁路客票营销分析为目的,针对铁路客票信息数据量大、属性复杂、域值广等特点,实现了从数据预处理、决策树生成到规则提取、知识产生等一系列过程。该方法完全适应铁路客票营销分析的需要,能够对客票数据进行较为有效的分析和处理,得出指导铁路营运的决策信息。 SF_DT算法以决策树分类算法ID3的基本思想为基础,用基于文件分割的方法代替原有的基于内存的算法,提高了算法的可规模性,可以处理超大规模的数据。另外,算法还产生了带有统计信息的定量规则,能够清晰地提供主类的分布情况,为数据分析提供了更为详细的信息。 通过研究,我们为分类技术的发展创建了新的应用背景,为其进一步研究奠定了应用基础。另一方面,也将数据挖掘的技术用于铁路客票营销分析,为铁路客运的合理安排及组织管理提供了丰富的决策信息。