基于Spark平台的公交客流预测方法的研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:uspjxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市公共交通是城市建设和社会生活的重要组成部分,对城市经济和居民生活具有深远性、全面性的影响。但是,当前交通资源利用率低、交通拥堵、交通污染等问题日益严重,这些现实问题直接关系着人民群众的切身利益。公交客流预测作为一种科学的措施,能为城市公共交通政策制定、系统规划、运营管理提供重要信息,能帮助公交管理者制定合理的公交运营计划和政策,是提高交通资源利用率、增强城市功能的重要途径,对缓解交通拥堵、降低交通污染具有十分重要的作用。随机森林是基于多棵决策树的组合模型,相比于其他算法有较多的优势。然而在单机模式下,随机森林的决策树构建和预测投票过程都是串行化的,运行效率较低。数据量规模较大时,传统单机环境下的随机森林算法会消耗大量时间。Spark是一个分布式计算平台,能够轻松处理海量数据,使得大规模,分布式迭代计算成为可能。本文结合了随机森林和Spark两者的优点,将随机森林作为公交客流预测模型,Spark作为随机森林的并行化实现平台。本文在现有公交客流数据的基础上,使用Spark SQL统计和提取有用信息,对公交客流的出行规律进行分析。分别研究了客流的时间分布特征和动态影响因素,分析了公交客流在工作日、周末的变化规律,同时分析了天气、温度、节假日等因素对公交短时客流的影响。为了解决单机环境下随机森林耗时长的问题,本文提出了基于Spark平台的随机森林并行化方法,实现了建树和投票两个过程的并行化。实验结果表明,并行化随机森林的运行效率要好于传统单机环境下的随机森林。另外,本文通过对比多种回归模型的实验结果,证实了并行化随机森林在模型拟合度和预测精度上都能取得较好的效果。现有对随机森林的改进研究大多用于分类问题上,对于回归问题的改进研究较少。本文总结了以往各方面的研究经验,提出了改进型随机森林样本相似度计算方法,并基于该计算方法对随机森林的投票过程进行优化,提出了加权投票方法。同时实现了改进型特征选择算法,该算法能缩小随机森林进行特征选择时抽取的特征子集,减小不重要的特征对随机森林预测效果的影响。实验结果表明,改进后随机森林模型的客流预测精度较改进前有所提高。
其他文献
目的分析冠脉支架置入术后支架内再狭窄(2SR)发生的相关因素。方法回顾性分析冠脉支架置入的患者共204例,所有患者于术后12个月接受冠脉造影检查或12个月内因再发心血管事件
制定明确的教学目标,是课堂教学设计的中心任务。笔者分析了目前在教学目标设计方面存在的问题及成因,分析了教学目标及相关概念的内涵,提出了在进行教学目标设计时应将过程
弱势群体受教育程度的高低直接影响到社会整体的进步与发展。本文通过对弱势群体的受教育状况以及影响其受教育权利因素的分析,提出应加大教育投入、完善对弱势群体教育的资
<正>高处坠落伤及高能量外伤导致的胫骨Pilon骨折临床治疗较为棘手,尤其是对于RUedi-AllgowerⅡ、Ⅲ型开放性的胫骨Pilon骨折治疗难度大[1],并发症多,病发率高,富挑战性。作
孤独症儿童的教育训练在中国大陆已有近20年历史,虽然其病因尚无公认之定论,但医学界、教育界、心理学界、康复界的同仁都在努力探索治疗、康复和教育的方法。本文作者通过十
本文首先论述了国企私有化的理论来源,然后对中国现在国企私有化的现状进行了论述,对其理由进行批判,最后提出国企不能私有化的观点。国有企业需要改革,但是不应该向着私有化
目的:分析仔猪在猪口蹄疫、高致病性猪蓝耳病上实施不同免疫注射的方法和效果。方法:选择200头满足试验要求的仔猪作为研究对象,将其随机分为对照组、试验组两个组别,每组各1
随着现代信息技术的飞速发展,人们越来越重视信息技术对传统产业的改造以及对信息资源的开发和利用。分析传统农产品物流信息服务的现状,提出农产品与互联网进行深度融合,建
使用低噪音制动部件会改变货车车轮的磨损模式,需要对部件进行频繁的测试以确保货车的可靠运行。
目前我国很多聋校都在全校或部分班级使用普校数学教材。在聋校使用普校数学教材符合"特殊需要教育"和"全纳教育"的思想,也是当前聋教育发展的现实需要。聋校和普校数学教学