面向警务数据处理的Spark性能优化研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liu13948706813
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今各个领域都以惊人的速度产生数据,公安机关采集到的数据更是与日俱增,源源不断的数据给公安机关带来机遇的同时也带来了挑战。传统数据库难以通过横向扩充硬件来提高数据处理能力,在这捉襟见肘的形式下,大数据处理引擎Spark应运而生。Spark充分利用内存资源,采用先进的DAG调度模型,提供流水线计算方式,因此在大数据处理方面具有强大的优势。然而,Spark作为一个通用计算框架,在应用时仍然存在很大的优化空间,本文从Spark在警务数据处理中暴露出的性能问题入手开展优化研究,主要工作和研究成果如下:(1)本文所面临的性能问题本质上都是因为难以准确估计任务执行耗时,因此本文首先研究一种任务执行时间预测方法。在深入研究现有分布式计算系统的性能预测方法后,本文采用RBF神经网络构建预测模型,针对RBF神经网络传统的梯度下降训练方法容易陷入局部极值点的问题,引入群体智能算法PSO进行优化,并且基于Chebyshev混沌映射对PSO算法进行了改进,增强了PSO算法的全局寻优能力,最后采用梯度下降和改进PSO相结合的方法对模型进行训练,通过实验验证了该方法能取得更小的训练误差。(2)Spark默认的延迟调度算法会出现盲目等待优先位置,导致资源利用率不高的现象,因此本文基于任务执行时间预测模型,选取放弃等待优先位置性能损失较小的任务,调度到当前空闲的资源上执行。实验结果证明在不同的延迟等待时长下性能均有一定提升。(3)Spark现有的任务推测执行算法采用简单的统计方法,在数据倾斜的异构环境中会产生较多不必要的备份任务,浪费集群计算资源,因此本文基于任务执行时间预测模型,准确识别落后任务并启动备份任务,此外,本文在推测执行算法中加入一种任务迁移加速策略,进一步提升了性能。(4)Spark未提供数据自动缓存的实现,前人针对底层RDD提出的自适应缓存策略不适用于Spark SQL的Dataset,本文在汲取前人研究成果后,基于任务执行时间预测,提出一种执行计划代价模型,进而提出Dataset的自适应缓存策略,并且为了进一步提高性能,采用一种并集下推优化的方法以减少中间结果数据量。(5)将优化算法应用到Spark中后,设计并实现了基于Spark的警务数据处理平台,该平台具有动态构建查询业务、数据查询快速的特点。
其他文献
随着“中国制造2025”战略的实施,装备制造业迎来了新的机遇与挑战。液压技术作为我国装备制造业的核心技术组成部分,被广泛应用在各类工程机械中。目前精密重载设备市场上的液压泵普遍存在压力冲击和困油现象,工作噪声较高,难以适应市场需求,因此开展低噪声、高性能液压泵的研究对开发新型结构的液压泵以及推动液压产品进入高端市场具有重要意义。本文运用虚拟样机技术研究了一种高压、大排量球形叶片液压泵的整体工作性能
在利用压缩感知处理二维自然图像时,传统的方法是直接对整幅图像进行采样,这样做的弊端是需要规模庞大的观测矩阵才能完成对整幅图像的观测,然而过大的观测矩阵是不利于计算
大进深高层公寓作为高密度城市空间的一个缩影,在城市发展的过程中起到越来越重要的作用,但其居住空间环境却不尽如人意。每层户数多,空间紧凑,排列紧密,朝向单一,内部空气不流通,空气质量差。为了改善大进深高层公寓建筑室内通风环境,在建筑中使用机械通风设备,这将使整个建筑中的运行能耗大幅度提高而舒适性较差。目前,对实现绿色建筑要求越来越高,自然通风是重要的绿色建筑被动式设计策略,在节能减排、改善室内空气品
气相(H2O)6团簇的研究对于理解液相和固相本体水的性质、揭示大气物理与化学及生命科学领域的本质问题具有重要意义,对不断变化与错综复杂的氢键网络重排动力学过程的理解是至
传统的桥梁静荷载试验方法测试过程繁杂,测试周期长,通常需要中断交通,影响交通的正常运行。因此如何快速、有效地确定桥梁的力学性能具有重要现实意义,本文研究用基于多阶频
研究生(下文所提研究生均指全日制硕士研究生)思想政治理论课在高校中又被称为公共政治理论课,是高校进行思想政治教育的重要途径。为研究生开设公共政治理论课有利于提高道
随着国家铁路建设的深入发展,已有较多特长铁路隧道投入运营,且未来还将修建更多的特长铁路隧道,铁路隧道的长度大于20km时就需要设置救援站。在特长铁路隧道救援站之中,火灾
长沙市是中部崛起的重要战略城市,是“两型社会”试验区,近几年随着经济发展、人口增长与城市扩张,城市生态环境不容乐观。本文运用能值生态足迹模型,加入经济、科技与人力因
当弹丸在膛内运动时,会因偏航、撞击、摩擦力以及自身填充条件等不可避免因素发生抖动,由于炮管的遮蔽性和测试环境的恶劣,给膛内弹丸运动姿态参数的实时监测带来了膛内视野
本论文以芝麻蛋白为研究对象,分别研究生长和加工过程对蛋白质水溶性氮(NSI)的影响。本论文研究主要包括生长期蛋白质变化,压榨过程中蛋白质变化以及通过生物改性和化学改性