基于ORC元数据的Hive Join查询Reducer负载均衡方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:sdwudipaopao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
负载不均衡问题位列影响大规模MapReduce集群性能因素的首位,而Hive join查询非常容易触发该问题。通用解决方案是基于中间键值对的key频率分布设计能够实现负载均衡的key划分算法。现有工作估算key频率分布时依赖于对map的输出进行监控采样,使得通信开销较大并显著延后了shuffle的启动。针对Hive join查询,提出了基于ORC元数据的key频率分布估计方法和相应的负载均衡key划分方法。该方法具有计算量小、通信开销小、不影响现有shuffle机制的优点。通过基准测试证明了该方法在key频率分布估算效率上的巨大提升及相应的key划分方法对Hive join查询性能的提升。
其他文献
长期以来科学家为探索生命的秘密而不懈努力着,不管是关注全球变暖还是探索地球两极,不管是发现古老生物还是揭秘百年难题,都是人类认知生命的历程。人类也从来不放弃对地外生命
由于弹性波传播动力学方程较复杂,若通过材料参数设计控制弹性波的传播路径,难以获得准确的设计结果。通常在对弹性波材料进行设计时,需要根据实际情况(如高频条件),对动力学方
社会责任与社会信任是一个社会长期文明和文化培育出来的精神品质,是现代社会文明程度的重要特征。作为社会经济当中的重要元素,企业在发展的同时,必须肩负起社会责任,提高社
目的将基于问题的学习法( p r o b l e m G b a s e dl e a r n i n g, P B L) 应用于实习护生慢性病管理小讲课中, 探索实习护生和临床教师的应用体验.方法2 0 1 5年1 0月至2
近代经济学认为,房地产具有多种属性的组合,这些属性或特征,才是影响其需求价格的重要因素。特征价格模型的函数形式的选择具有多样化,包括线性函数、对数函数、半对数函数等。文
成功的英语课堂教学导入环节能够迅速激发学生学习英语的兴趣,引发学生学习英语的动机,使其产生强烈的求知欲望,充分调动学生学习的主动性与积极性,并为顺利学习新内容做好铺
<正>近些年米,初中阶段学生的辍学现象引起一些研究人员的关注。例如《中国教育学刊》自2003年以来发表了多篇关于初中阶段辍学问题的文章,其中有些还作为期刊的首篇发表。值
介绍了高功率双端泵浦绿光激光器温度控制的研究。采用DSP芯片作为系统的控制核心,针对三个不同的参数进行有效控制,在满足必要指标的基础上达到了激光器能够保持长时间高功率