论文部分内容阅读
随着公交事业的发展和公交卡的大规模覆盖,智能卡收费系统在每日的运行中产生了海量的刷卡交易数据,分布式处理公交刷卡数据,从中获取有效公交客流信息进行相关分析预测成为研究热点。现存的公交客流预测技术方法应用在实际场景中容易造成模型拟合程度不高,精确度低下问题。同时,数据量级和执行效率间的负相关冲突并未解决,加之超线性时间复杂度的计算,使得它们很难并行的部署在分布式集群上。传统公交线路客流预测方法存在的精确度与执行效率问题表明公交大数据的分布式训练预测方法与云平台计算框架的协作显得尤为重要。首先,本文通过对公交客流分布特性的分析,提出了一种面向公交刷卡数据处理的非参数随机建模方法(simHash)。该方法结合刷卡交易和天气数据构建公交客流特征集,从时间、线路、人群和天气等不同层面进行特征设计。simHash能够运用类型更加宽泛的特征映射函数对相似特征数据进行处理,使其建立的预测模型精确度更高。其次,本文提出了一种基于simHash建模的公交线路客流预测方法,运用simHash将公交客流特征数据转换成哈希码,并随机分割到分区子集后建立模型,在各分区中对模型运用独立的训练和预测算法实现公交线路客流的预测。该方法运用合理的训练预测方法显著地提高了执行效率,有效的解决了传统树结构预测方法计算开销大的问题。最后,为了验证本文提出的公交客流预测方法,本文实现了基于Spark云平台的公交客流预测方法的应用,对实际的公交刷卡数据进行实验,结果表明本文设计的公交客流预测方法提高了预测精确度,同时还显著提升了海量公交刷卡数据的处理效率,解决了数据量级和执行效率间的矛盾。