【摘 要】
:
作为一种编程模型,MapReduce已经成为处理大规模数据处理问题的一个重要手段。目前,MapReduce已被广泛地应用于Web搜索,机器学习,电子商务等领域。Hadoop,作为MapReduce的一
论文部分内容阅读
作为一种编程模型,MapReduce已经成为处理大规模数据处理问题的一个重要手段。目前,MapReduce已被广泛地应用于Web搜索,机器学习,电子商务等领域。Hadoop,作为MapReduce的一种开源实现,已经被广泛地用到离线大数据处理。目前因为对处理海量数据的要求持续增长,Hadoop集群的规模也变的越来越大。为了管理大规模集群,人们试图去提高集群的效率水平,用更强大的计算节点和水平扩展去构建的集群。这时高效地利用集群资源将变得更有挑战性。在研究Hadoop的过程中,发现在Hadoop的数据处理的并行粒度是比较大的,同时它不能充分利用多核系统的优势。这些问题会降低整个集群资源利用率和集群效率。为此,本文提出一种更加细粒度的数据处理策略,在增加系统负担的情况下,对HDFS的数据块进一步地进行分片,同时,在MapReduce的任务下产生多线程,充分利用多核系统,进一步地进行以提高任务执行的并行度,从而优化集群资源利用率和提升作业执行的速度。我们把这个策略作为一个功能模块实现在开源项目Hadoop上,并且这个的实现并不会影响Hadoop原来的执行策略。为了验证本文提出的这个策略,我们在搭建了Hadoop集群,并做了广泛的实验。实验结果显示本文提出的策略不仅能优化MapReduce集群的资源利用率,还能缩短作业的完成时间至三倍。
其他文献
计算机网络自上个世纪50年代产生至今,已经历了半个多世纪的发展。如今网络已经成为我们生活中不可或缺的一部分了,Internet、局域网,甚至手机通信的GPRS,都处处反映着网络的
说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文通过分析说话人识别基本原理与系统结构,考察现有的说话人识别技术,研究采用
中文作为人类传播信息的重要语言工具之一,中文信息处理已经成为信息处理领域的热点研究问题。中文自动分词是中文信息处理的重要组成部分,而词典处理效率是影响中文自动分词
无线传感器网络(WSN,Wireless Sensor Network)综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,是计算机科学技术一个新的研究领域,具有十分广阔的应
45°旋转扫描反射镜是目前最成熟、最常用的光机扫描模式,在卫星遥感器上有着广泛的应用前景。但是由于45°旋转扫描反射镜在扫描过程中会产生像旋,直接采用该扫描方式在应用
情感计算是国际上近几年刚刚兴起的、试图使计算机能够像人类那样具有理解和表达情感能力的一个多学科交叉的新研究领域,在智能人机交互中起着重要作用。由于人的面部表情是情
基础云服务(IaaS)以其减少性能开销,提高资源利用率的优点已经成为云平台服务以及云软件服务的重要支撑。虚拟化是实现IaaS的核心技术,然而由于云服务应用需求,托管的虚拟机
随着工业生产的发展,工业生产过程日趋复杂化,工业控制系统的开发成为工业生产中一个非常重要的部分。但传统的工业控制系统存在着软件水平不高、质量不好的问题,因此优秀的
事件发掘就是从海量的、实时的、嘈杂的文本中发掘出有意义的事件,并将其中的事件要素概括抽取出来。事件发掘与其他自然语言处理领域的研究,如信息挖掘、主题检测、事件抽取
随着数据库技术的迅速发展,以及数据库管理系统的广泛应用,各个应用领域积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,用户希望能够对其进行更高层次的分析,以便