Spark中内存数据管理技术研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:xinwei313624094
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark作为开源的大数据处理平台,其核心是弹性分布式数据集RDD(Resilient Distributed Datasets),通过将RDD以分布式的形式存储在集群的内存中,以提高应用执行效率。随着大数据时代的发展,数据呈现爆发式增长,越来越多的企业采用Spark来提供数据处理服务,但在实际的应用中发现,当内存大小相对于数据的规模出现瓶颈时,Spark运行的稳定性及任务执行效率要远低于Map/Reduce,甚至导致Spark崩溃,这与Spark本身的内存数据管理有密切的关系。因此如何在内存缓存数据管理技术方面提高Spark集群的内存资源利用率和任务执行效率,具有一定的研究价值和现实意义。Spark内存数据管理未提供缓存对象的自动选择机制,且在内存不足时,采用LRU进行缓存替换,未考虑Spark数据特征,影响任务执行效率;Spark内存数据管理只提供在单应用中共享缓存数据,造成多应用缓存数据冗余。针对以上问题,本文主要从缓存对象的选择、替换及缓存数据共享等方面对Spark集群中内存缓存数据的管理技术进行研究,主要贡献包括:1.针对Spark缓存对象选择不确定性及替换对象选择不合理性导致增加任务执行时间的问题,提出了面向RDD内存数据的自适应缓存机制对RDD的缓存进行优化。该机制优先选取重用度高或计算代价高的RDD作为缓存对象;用最小权重替换算法替代LRU,考虑RDD分区的并行计算特征,在权重计算中加入了完整引用计数影响因子,采用线性加权累加的方法构建权重模型,使RDD分区权重值更加准确,以提高缓存替换对象选择的精准度;根据任务执行情况动态调整相关因子值,使缓存替换能够适应任务执行过程的变化。通过对照实验证明,此机制能够有效减少任务执行时间,提高Spark计算性能。2.针对不同应用之间存在的相同数据被缓存,造成缓存数据冗余导致内存资源浪费的问题,在现有研究的基础上利用多应用共享内存数据空间进行改进,提出了一种面向RDD内存数据的共享机制。首先采用主从式内存数据管理架构对集群中缓存数据进行统一管理,为数据共享提供信息支持;通过内存数据共享系统识别不同应用中执行相同任务的RDD,并根据数据缓存情况对DAG进行重写;为了避免重写后的DAG在等待执行过程中,所需的缓存数据由于内存不足而淘汰,考虑数据在多应用中的引用情况,并采用熵值法对最小权重替换算法进行改进,以保证共享数据的完整性。实验结果表明该机制能够提高集群的内存资源利用率,有效减少作业的执行时间。从缓存及替换对象选择的准确度、内存资源利用率及作业执行时间等方面可以看出,本文研究工作对于Spark大数据处理具有重要意义。
其他文献
随着我国科技的快速进步,我国道路运输业也迅速发展,道路交通安全与节能减排成为了当今社会关注的热点问题。在人—车—路(环)这个闭环系统中,驾驶员作为道路交通系统的参与者,作为车辆运动的具体操作者、决策者,其驾驶操作能力的好坏将直接影响到道路交通安全与节能减排。如今道路交通安全和节能减排问题日益严重,特别是营运车辆驾驶员的管理尤为重要,故作为道路运输企业如何对营运车辆驾驶员进行管理,这对我国道路运输安
人工智能在第四次工业革命浪潮中扮演了一个十分重要的角色,在互联网高速发展、大数据海量支撑和核心算法日益突破的产业背景下,人工智能迎来了发展机遇,成为世界各国科技发展的核心竞争点,更成为拉动全球经济增长的新引擎。全球人工智能行业中核心产业规模得到迅猛发展,并呈现出美国、中国和欧洲三足鼎立的态势,我国人工智能领域更是成为世界上投融资规模最大的市场。我国人工智能产业在全球风险投融资领域占比高达60%,成
外科手术导航系统中,利用人体嵌入基准标记物来辅助X光影像与CT影像的医学图像配准,然而目前的技术如果要确定标记点的位置,还要依靠专家手动识别和实践经验。所以自动提取X
2010年3月,融资融券交易机制推出,我国市场交易体系得到完善,目前共有950只标的股票可供投资者选择交易。在融资融券机制推行后,投资者只能通过单边做多的情况从此成为历史。
背景和目的自发性蛛网膜下腔出血(subarachnoidhemorrhage,SAH)是一类最常见的危重脑血管疾病,具有高致残率和高致死率的特点。随着诊治技术和材料的进步,一定程度上控制了高颅压、低灌注、再出血等情况的发生,但是很多SAH患者的治疗效果不理想,临床预后未见明显改善。研究证实SAH后的早期脑损伤(early brain injury,EBI)是导致此类患者预后不佳的重要原因,同时SA
爆裂玉米作为特异的种质资源,具有籽粒硬度高、灌浆脱水快、早熟等现代育种十分关注的特异性状。本研究采用二代测序技术对粒重差异明显的小粒爆裂玉米自交系N04和大粒普通玉
本论文利用水热合成方法,以含有共轭结构单元的芳香型有机膦酸,即对羧基苄基膦酸乙酯(H2L=4-HOOCC6H4CH2PO(OH)(OC2H5))和对硝基苄基膦酸(H2L’=4-O2NC6H4CH2PO(OH)2)为配体,合成了8种
2018年,中央政法委召开全国扫黑除恶专项斗争的电话会议,覆盖全国的“扫黑除恶”专项斗争开始。为期三年的专项斗争在进行的过程中,对黑恶势力的打击犯罪取得了令人瞩目的成绩,全面肃清、彻底根除黑恶势力的打击态势是民心所向。但在这个过程中也凸显出来一些问题。最高人民法院、最高人民检察院和公安部(以下简称两高两部)在2018年出台的《关于办理黑恶势力犯罪若干问题的指导意见》(以下简称《2018指导意见》)
干旱已成为全球日益严重的问题,严重影响林木的生长与分布。杨树在水土保持、防风固沙等方面有重要作用,但对干旱胁迫较为敏感,因而在干旱半干旱地区,杨树的正常生长受阻。胆
目的:本研究以随机对照的方法,评价针刺“鬼穴”治疗广泛性焦虑障碍的临床疗效,并通过事件相关电位探讨其认知神经学机制,为针刺“鬼穴”疗法进一步推广运用提供理论依据,也为下一步的临床和基础研究打下基础。方法:将符合广泛性焦虑障碍诊断(轻中度)的患者,随机分为观察组、对照组各32例,共64例。两组患者性别、年龄基础资料经检验组间无差异,具可比性。观察组给予“针刺”鬼穴疗法,取穴为:水沟穴,大陵穴,申脉穴