基于细粒度监控的Spark优化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:aini123321231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark具有良好的容错性和扩展性,在业界已经得到了广泛的应用,但由于Spark平台底层实现技术对用户来说是透明的,而且性能优化需要综合考虑集群资源利用率、Spark负载执行效率等多种因素,使得不同类型的负载的分析优化变得十分复杂,经验不足的Spark用户常常无从入手。Spark的一个特点是支持如Amazon EMR等的云服务,这个特性对于需要处理大数据的中小企业有很大的益处。因此,在云服务上执行Spark程序已经成为了一些企业和科研机构的的弹性选择。Amazon EMR为需要运行Spark负载的用户提供了便利。然而为了高效地使用租赁服务,用户需要在满足应用需求的前提下,申请分配最优的集群资源,以降低租赁成本,然而服务提供商并不能满足这样的服务需求。如此一来,集群资源分配的优化完全成为了用户的责任,这对于Spark用户来说是一个很大的挑战,更是一个亟待解决的问题。本文针对以上问题,设计并实现了Spark集群细粒度监控工具,并在细粒度监控的基础上,完成了以下研究内容:(1)通过对Spark性能影响较大的因素的研究,结合集群资源和Spark历史运行数据的细粒度监控,针对不同类型的负载,对Spark的性能优化工作进行了研究,优化维度包括:数据序列化方式、Shuffle管理器、RDD的持久化、数据的压缩、资源调度、文件系统策略等,优化目标为提高集群的资源利用率、减少作业的执行时间。(2)通过对Spark负载进行性能建模,以用于预测作业的执行时间,进而优化Spark集群资源的分配,集群资源分配优化的指标为,在满足应用需求的前提下,申请分配最优的集群资源,以降低资源使用成本。本文通过实验对Spark负载的优化进行了分析研究,并详细验证了Spark资源分配优化模型的准确性。实验结果表明,模型适用于Spark上运行的多种类型的Spark负载(包括文本处理、机器学习、图计算),不仅有助于用户合理地申请集群资源,而且对服务提供商优化集群资源利用率也有很大的参考价值。
其他文献
随着计算机信息处理技术和通信技术的快速发展,每天都会产生大量的数据,对于一些资源有限的设备,如何在处理这些大量信息的同时保障其安全性是一个至关重要的问题。一种可行
针对当前词语相似度计算方法存在的局限性:基于语义词典的词语相似度计算方法依赖字典进行相似度计算,因此无法对字典未登录词语进行计算;基于语料库的词语相似度计算方法在计算
RFID系统有许多种类的安全与隐私保护方式,其中采用安全认证协议是性价比最优的,所以运用最广。这些安全认证协议大多是突出了两个主要途径:一种是哈希锁方案,需要随机数发生
随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎已经不能满足用户对于信息检
关联规则作为数据挖掘的一个热点方向,已经引起很多学者的广泛关注。本文在介绍权值和负关联规则的基础上,重点讨论了加权负关联规则的增量更新和剪枝算法。加权负关联规则的
当前网络环境下,计算机病毒的迅速演化导致了反病毒技术的不断发展,反病毒史上病毒查杀技术层出不穷,其中传统的特征码技术是最基础的技术。特征码技术主要是将被测程序具有
人睑识别是通过计算机提取脸部特征,并利用这些特征与人脸库中已有的人脸进行比较,从而完成身份验证的一种技术。近年来,随着计算机技术的发展,它作为一个重要的研究方向已经
本文开发的一种基于Web的路产影像管理系统实现了B/S模式下道路综合信息的网络化管理,这些信息包括道路影像资料、沿线道路设施及GPS信息等数据。如何将这些纷繁芜杂的数据准
当代是信息大爆炸的时代,我们每天都在浏览着各色各样的新闻,很多时候,我们出现了“信息选择困难症”,这就是“信息过载”问题,因此,智能新闻推荐应运而生。通过为用户提供个
现代工业化生产规模的不断扩大,使得各种设备不断增多并趋于更加智能化,工业系统逐渐向智能制造系统发展,整个工业过程越来越复杂,从而各种各样故障的产生在所难免。这种复杂