Hadoop环境中面向迭代应用的性能优化机制研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:yuryun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多针对大数据集的建模过程中都需要使用迭代算法,比如数据挖掘,网页排序,和社交网络的分析等等。类似这样的迭代应用一般都需要进行海量数据处理。MapReduce作为进行海量数据处理的分布式计算框架之一,因其简单的编程方式,高容错性,易于实现且扩展性强,受到了业界广泛的关注。但是在MapReduce机制下处理迭代应用还存在下几方面的性能缺陷,(1)每次迭代生成具备较多的数据量的新的模型而造成大规模的网络阻塞,(2)计算过程中静态数据重复读取,(3)存在多方面的控制依赖和数据依赖,(4)在一些需要进行阈值检测的迭代应用中MapReducde需要额外的任务来进行阈值检测,(5)在使用传统MapReduce编程接口的情况下,迭代计算不易被表达。针对以上问题,本文将从传统MapReduce机制的运行策略,调度机制和编程模型入手,结合迭代应用的特点,提出了一种针对迭代型数据处理的性能优化机制,从多个角度对传统MapReduce进行改进,来更有效的支持MapReduce机制下的迭代计算,本文的主要研究内容包括以下几个方面:1、通过对当前几种处理大规模数据集系统框架的比较分析,给出了选择MapReduce作为迭代应用的实现平台原因,以典型迭代应用的为例,分析了MapReduce处理迭代计算时的数据流和控制流,找出了相关的性能问题。2、为了减少全局线性运行策略所造成的执行延迟,缓解多对多的数据传输对网络带宽所造成的压力,我们给出了局部线性运行策略,并设计了专门针对缓存的循环调度算法,使得缓存机制能够在迭代应用中最大程度的发挥作用,最后针对线性执行方式提出了相应并行迭代策略,更加有效的提升迭代计算整体的计算速度和执行效率。3、最后我们以本文所提出的机制为平台,选择了典型的迭代算法进行实现,并以相应算法在Hadoop平台上的运行为基准,通过实验验证了本文中所提出的优化机制在减少中间数据量,缓解网络压力,提升迭代计算速度等方面有一定的效果。
其他文献
由于辐射导致的单粒子翻转效应SEU(Single Event Upset),使得航天计算机上的静态存储器SRAM中的数据可能出现小概率错误,这种错误若不及时进行纠正将会影响计算机系统的运行和关
期货市场是一个多变的投机型市场,影响期货价格的因素很多很复杂,如气候、国家政策、商品供求状况、经济波动周期、金融货币等,都为期货市场时间序列的准确预测增加了困难.对
当前,智慧城市成为信息时代城市建设的一个基本目标,智能视频安防监控是其中重要一环。视频监控系统已广泛使用于各行各业,监控视频数据已成为一类典型的大数据,传统的视频收
遗传算法是一种概率搜索算法,其基本思想是模拟生物进化过程。由于遗传算法不受搜索空间的限制性假设的约束,不要求解空间有连续性、可导等性质,以及其固有的并行性,目前在许多领