【摘 要】
:
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,
【机 构】
:
北京大学信息科学技术学院北京100871
【出 处】
:
中国计算机学会第一届CCF大数据学术会议
论文部分内容阅读
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要影响因素之间的定量关系,并给出了相关理论及其证明推导,同时通过实验进一步验证了理论的正确性.基于研究的结果,可以在给定MapReduce环境中,通过分析数据特征,找到最优抽样样本规模,从而通过尽可能小的抽样代价来得到满足要求的数据划分.通过将研究成果应用在改进的Terasort算法上,以实例验证了其在MapRedece平台上的实际意义.
其他文献
把羌族和彝族放在一起研究,其一是羌彝两族有着一定的渊源与遗留,如祖先同源,服饰图纹和符号相似,语言、姓氏、婚姻、丧葬、习俗等方面相近或相同。其二是羌彝两族在宗教方面
利用傅里叶变换红外光谱仪和拉曼光谱仪,对间位芳纶和对位芳纶进行定性鉴别。结果表明:中红外光谱法可以对芳纶进行初步鉴别,间位芳纶和对位芳纶在波数为1437~1706cm^-1时存
卡特里西铜锌矿位于塔里木陆块南缘晚古生代喀拉米兰弧沟系中,成矿与海相火山沉积作用有关,含矿地层为下石炭统托库孜达坂群基性凝灰岩层,矿体与基性凝灰岩层产出几乎一致,层
介绍了秦淮河开启桥垂直提升系统的主要参数、结构构造及工作原理,该开启桥垂直提升系统采用将配重设计于塔身之中并采用油缸顶升进行连续、快速、安全的提升及下降。
回顾性分析腰椎间盘突出复发患者52例临床治疗资料,52例中因腰椎突出节段手术残留导致复发29例,占55.8%;因术后瘢痕粘连导致复发13例,占25.0%;因侧隐窝狭窄导致复发5例,占9.6
目的研究化学沉积Ni-4.11%Mo-6.50%P和Ni-9.19%P合金镀层退火晶化转变特征,通过定量表征镀层的晶化程度、晶粒尺寸及结晶相的质量分数,建立显微组织与耐蚀性的关联。方法采用
系统辩证学,是在马克思主义哲学基础上结合现代科学的研究成果和新的理论成就发展形成的哲学的科学,是一种新的世界观和方法论。在当今宇宙论的诸多论题中,时空有限还是无限、世
目的:研究苦瓜口含片对高血糖小鼠的降血糖作用。方法:用四氧嘧啶诱发高血糖小鼠模型后,分别口服灌胃(ig)给予等体积的0.5%羧甲基纤维素钠溶液(空白对照组)、格列本脲片(阳性组,1mg·
把素质教育引入课堂,就要充分发挥教师的主导作用和学生的主体作用,使教师的主导作用与学生的主动性相结合,充分调动学生参与教学活动的积极性,引导学生获取基础知识、培养能力,掌
工程承包公司的成立,是我国基本建设管理体制改革的产物。近来,一些大型施工企业也在探讨对工程实行总承包,无论承包公司是什么形式的企业,凡是对建设项目全过程实行总承包的