MapReduce数据流优化的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:caifubaguoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算技术的飞速发展,互联网和科学计算领域需要处理的数据呈现出级数式增长的趋势,并行编程技术在这海量数据处理中发挥着重要作用。当前运用较多的是由Google提出的MapReduce分布式并行计算编程模型,它将处理过程抽象成map和redcue两个函数,底层框架负责数据分片、任务调度、集群容错、集群间通信等任务。专家学者对MapReduce模型在集群中应用存在的缺陷提出了几种改进模型,但大多只针对某一问题或只适用于某一类应用而缺乏普遍性。   本文借助数据流分析技术,对MapReduce进行数据流分析与优化,将其中的消息处理分割出来,来解决MapReduce集群中主节点的消息处理过重而造成负载失衡的问题。随之,采用消息代理机制对MapReduce模型进行改进。论文主要工作有:   (1)对MapReduce数据流进行分析与优化。借助数据流分析技术,对模型进行深入剖析,此部分主要分三个阶段:MapReduce细节化处理,数据流分析与优化,消息处理的分割;并建立了面向MapReduce的消息代理理论模型。   (2)提出MapReduce改进模型。在MapReduce数据流优化后,已较好地将消息处理从主节点的工作中分割出来。为该理论于实际模型中,本文采用消息代理机制(Message Broker Mechanism),建立了基于消息代理机制的MapReduce改进模型。   (3)对改进模型进行实验仿真。借助Eucalytus基础设施平台构建集群,以Hadoop为运行环境,NaradaBrokering为消息代理实体,建立了适合原模型和改进模型实际运行的平台架构。实验应用包括音乐家相似度计算和k-means聚类计算,分别考察其平均负载和扩展性的表现。   实验数据得出,基于消息代理机制的MapReduce框架在数据密集型应用中对主节点的负载均衡有一定的提高,本文实验的实例中集群中的主节点的平均负载值下降了3.71%;改进模型在计算密集型应用上虽然运行时间上没有显著提高,但从加速比中看出其保持了良好的可扩展性。
其他文献
语音信号是人们构成思想疏通和感情交流的最主要的途径。传统的语音处理系统大多只着眼于语音词汇传达的准确性,而忽略了包含在语音信号中的情感信息。让计算机能够像人一样说
在数据挖掘、传感器网络、数据检索等应用中产生了大量的不确定性数据,它广泛地存在于金融、军事等领域中。不确定性数据带给用户的信息是不准确的,但是如果直接丢弃或者清洗
复杂背景视频序列中微动目标的特征提取与分类算法研究,在运动目标的检测与提取的研究领域中,有着十分重要的地位。在对该领域的研究中,已有的算法大多是基于运动特征或能量等对
随着智能规划越来越多在实际问题中的应用,更多的学者开始关注和研究智能规划,人们从多个角度去完善,并提出了多种规划策略,其中,启发式规划方法作为智能规划领域的重要问题之一,在
云计算技术的飞速发展推动了信息化架构的大整合,但将高性能计算迁移到云服务上,仍面临着重重挑战。尤其是目前广泛用于海量数据处理的Hadoop体系,应用到科学计算的某些领域存在
随着人脸识别技术在模式识别、计算机视觉和多媒体技术等领域中的不断发展,人脸检测与跟踪作为人脸识别技术中的关键问题,越来越受到大量相关研究者的关注与重视。目前,人脸检测
云是大气中热力过程和动力过程的外部表现,同时也是水汽循环的重要环节。它在天空中表现出来的水汽状况、稳定程度以及高度和厚度,都是实时预测天气的关键性特征。因而对于人
随着传感器技术、无线通信技术以及嵌入式计算技术的飞速发展和日益成熟,无线传感器网络在军事、环境、家居、医疗等诸多领域得到了广泛的应用。无线传感器网络一般是由大量采
近年来,随着计算机网络的普及和应用,网络成为全球范围内信息转播主要渠道,为用户提供方便的网络接入服务已成为各个公共场所的常用服务之一,所以越来越多的场合需要用到网络审计
随着互联网上视频数据的海量增长,对视频数据的组织和管理成为当下的迫切需求。由于传统的基于属性和文本的视频检索存在许多不足之处,因此直接通过视频的内容特征为索引的视频