基于Spark云平台的公交线路客流预测技术研究与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:ggg042001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着公交事业的发展和公交卡的大规模覆盖,智能卡收费系统在每日的运行中产生了海量的刷卡交易数据,分布式处理公交刷卡数据,从中获取有效公交客流信息进行相关分析预测成为研究热点。现存的公交客流预测技术方法应用在实际场景中容易造成模型拟合程度不高,精确度低下问题。同时,数据量级和执行效率间的负相关冲突并未解决,加之超线性时间复杂度的计算,使得它们很难并行的部署在分布式集群上。传统公交线路客流预测方法存在的精确度与执行效率问题表明公交大数据的分布式训练预测方法与云平台计算框架的协作显得尤为重要。首先,本文通过对公交客流分布特性的分析,提出了一种面向公交刷卡数据处理的非参数随机建模方法(simHash)。该方法结合刷卡交易和天气数据构建公交客流特征集,从时间、线路、人群和天气等不同层面进行特征设计。simHash能够运用类型更加宽泛的特征映射函数对相似特征数据进行处理,使其建立的预测模型精确度更高。其次,本文提出了一种基于simHash建模的公交线路客流预测方法,运用simHash将公交客流特征数据转换成哈希码,并随机分割到分区子集后建立模型,在各分区中对模型运用独立的训练和预测算法实现公交线路客流的预测。该方法运用合理的训练预测方法显著地提高了执行效率,有效的解决了传统树结构预测方法计算开销大的问题。最后,为了验证本文提出的公交客流预测方法,本文实现了基于Spark云平台的公交客流预测方法的应用,对实际的公交刷卡数据进行实验,结果表明本文设计的公交客流预测方法提高了预测精确度,同时还显著提升了海量公交刷卡数据的处理效率,解决了数据量级和执行效率间的矛盾。
其他文献
随着电子芯片产业的迅猛发展,芯片质量的优劣直接影响到了产品性能的好坏。因而对芯片进行自动化测试的研究已经非常必要。NRF24L01是一款常用的频率在2.45GHz左右能进行无线
本文是在理论研究的基础上进行的关于我国金融创新实践的实证研究。 首先,本文概括总结了金融资产和金融市场的功能、资本市场发展的标志,并从不同的角度探讨了资本市场存在
目的 通过文献分析现代医家治疗甲状腺结节的处方用药,总结中医临床治疗甲状腺结节的用药规律。方法 以"甲状腺结节"为主题词,分别辅以"中医"或"中药"为主题检索中国知网、万
随着微电子封装焊点不断向微型化、高封装密度化方向发展,电迁移逐渐成为微互连焊点的重要失效机制,因此国际半导体技术路线图组织(ITRS)将电迁移列为限制高密度封装发展的关
对合福铁路巢湖东站区有砟轨道工程技术标准及特点进行叙述,结合轨道精调、联调联试等方面要求,系统总结300km/h有砟轨道精调方法。通过该方法的实施,保障了巢湖东站有砟轨道在联
润湿性作为固体表面的一个重要性质,由微观形貌和化学组成两方面所决定。根据“仿荷叶”的设计理念,固体表面使用无机-有机纳米杂化材料可以有效改变其表层的微观多维粗糙度,
近年来,超强超快脉冲激光技术的飞速发展使激光与物质相互作用被赋予了许多新的内容。其中,一个崭新的物理现象就是飞秒激光在透明介质中非线性传输时会产生超连续辐射(宽光
<正>一、制定背景目前,太原市60岁以上老年人口有68.1万人,占全市总人口的15.8%;老龄化比例居山西省之首;全市空巢老人达35万人,占老年人口的51.4%,太原市已进入应对人口老龄
<正> 创伤性脑脓肿是开放性颅脑损伤,尤其是火器伤后常见而严重的并发症,也是晚期的主要死亡原因。我院1975年至1992年收治48例创伤性脑脓肿,报道如下。 临床资料 一、一般资