论文部分内容阅读
公共交通是加快城市建设的一项重要的基础性设施,引领城市经济发展,提高城市居民出行健康指数。智能公交系统的发展可以有效的缓解当前城市交通的拥堵现状,是未来公共交通发展的必然趋势。公交车到站时间预测是智能化公交系统的重要组成部分,是居民选择公交出行时最为关心的交通信息,因此,提高公交车的到站时间预测精度,能够大力推动城市公共交通的发展。公交车在运行过程中会产生大量的GPS定位数据,GPS数据具有全天候、连续性、实时性的特征,记录着公交车在每个时刻的移动轨迹和状态信息,数据量大,这对传统模型的处理速度和实效性要求提出了挑战。Hadoop分布式框架使得数据挖掘算法可以迁移到分布式平台上,MapReduce作为Hadoop的核心模块,使得挖掘算法可以通过并行方法处理海量数据,使算法在复杂度和效率上得到很大改善和提高。针对以上所述,本文提出并建立了基于MapReduce的聚类和神经网络相结合的并行化公交车到站时间预测模型。本文的主要研究内容包括以下三方面:1)本文实验所采集的数据是公交车GPS定位数据,首先进行数据预处理,并在此基础上计算生成时段划分和预测所需的基础数据集。最后,通过对公交车的到站时间影响因素的分析,选取了公交车的站间运行时间、站台停留时间、星期、节假日等特征作为预测模型的输入特征向量。2)在对公交车到站时间影响因素进行分析时发现,时段是影响公交车总运行时间的主要因素,因此,本文提出了聚类和神经网络相结合的分段预测模型。结合公交车的运行特征,利用K-means聚类方法对公交车的运行时段进行划分,之后对应各时段分别建立聚类和BP神经网络结合的分段模型进行公交车到站时间的预测。3)为了综合分析公交车GPS数据,挖掘更准确的有价值的信息,处理海量数据,本文提出了基于MapReduce的并行化公交车到站时间预测模型。在Hadoop平台上建立了K-means算法和BP算法的并行化框架,与传统的串行方法相比,有效地提高了模型的预测速度。