一种基于动态划分的MapReduce负载均衡方法

来源 :第30届中国数据库学术会议 | 被引量 : 0次 | 上传用户:zfgzfgzfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素,当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划分方式,无法根据数据的分布情况来调整集群的负载,容易出现负载不均衡的问题.为解决这一问题,对当前的MapReduce框架进行拓展,根据对Map端中间结果的采样来动态确定Reduce任务数目以及划分函数,保证Reduce任务的负载均衡具体地,对Map的结果进行采样,并将其发送给Job Tracker.Job Tracker根据采样数据的分布情况动态确定划分函数,以保证每个Reduce任务处理的记录数目均衡.更重要的是,在Hadoop框架内实现了负载均衡方法,测试结果证明方法具有良好的有效性、兼容性和可用性.
其他文献
大数据管理给分布式多维索引技术带来新的挑战,很多研究者提出基于云平台的分布式多维索引架构以提高大数据的查询效率.为了在同一种云平台下全面的评测各种不同的多维索引方
“中国土木学会隧道及地下工程学会第十届年会”与“第九届隧道和地下工程科技动态报告会”将于1998年10月在古城西安联合召开。会议由中国铁路工程总公司、中国铁道建筑总
微博的迅速普及使得越来越多的用户开始通过微博获取及分享信息,博文在微博上基于用户间关注关系度用户的转发动作得以扩散传播.通过对博文传播过程数据进行挖掘分析,可以了
美国哥伦比亚广播公司(CBS)从81年10月12日起在它的电缆电视系统中采用立体声伴音,整个系统采用道尔贝降噪,通过电缆用5.8MHz的伴音副载频传送。用户只要在接收端用一个标准
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
云资源的合理分配以及对作业的有效调度,能够大幅提升云系统性能.在归纳Hadoop的现有作业调度算法的基础上,提出一个适用于异构集群的Max-D调度算法.对比分析了FIFO、公平调
本文报导一例Ⅰ期矽肺并发的肺癌。患者李××,男性,61岁,1949年至1979年从事喷砂工,干式作业,接尘工龄30年,车间含游离二氧化硅的粉尘浓度的均值为374.5mg/m~3,超过国家标
人类免疫缺陷病毒(HIV)的感染给人们提出了许多医学实践和社会实践的问题。Redfield等在登载于本期的一篇报告中提出了有HIV感染危险的个人和人群免疫接种对策的特殊问题。
国花种种我国历史上曾先后将牡丹和梅花尊为国花。现在正在广泛征求意见,重新评选国花。世界上已有近70个国家选定了国花。各国所选的国花,有的是国人普遍喜爱,观赏价值高的;有的是
珠峰是地球之巅,在青藏高原之上,在恢弘高耸的喜马拉雅群山之中,岿然而立,所谓万山之尊.印度板块与欧亚板块的碰撞,岩层褶皱持续被冲断和挤压抬升,地壳运动导致垂直方向剧烈
期刊