HPC集群环境下分布式数据处理系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：huxianding

【摘要】

：

Hadoop以其高可用性成为当前大数据处理使用最广泛的工具，它是Google MapReduce和GFS的开源实现。相对于可用性，Hadoop的运行效率容易受到软硬件环境的影响。大型IT公司往往部

【作者】

：

陈明

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2014年期

【关键词】

：

分布式数据处理系统执行机构优化运行集群环境

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Hadoop以其高可用性成为当前大数据处理使用最广泛的工具，它是Google MapReduce和GFS的开源实现。相对于可用性，Hadoop的运行效率容易受到软硬件环境的影响。大型IT公司往往部署专门的Hadoop集群，对软硬件都进行有针对性的配置，其性能表现较好。然而通过调研发现，很多中小公司、高校的软硬件配置并不理想；另外，HPC系统的计算能力很强，但其他资源的配置相对有限，比如，天河2号平均单核内存不足0.33GB。在这些情况下，Hadoop的性能将大幅降低。　　适用于HPC集群环境的分布式数据处理系统Mammoth，对MapReduce的执行机制进行了一系列优化。首先，Mammoth设计并实现了多线程的Map/Reduce任务执行引擎，在每个TaskTracker节点上设置一个单独的任务执行进程，所有的任务都被调度到该进程中以线程方式执行；其次，提取Map任务和Reduce任务对内存使用的细节特征，根据这些特征将Map/Reduce任务更细粒度地划分为多个子阶段；再次，实现全局的内存管理，统一管理各个任务线程对内存的使用，设计自适应的内存调度算法，动态分配和回收各个任务使用到的内存；最后，实现全局的I/O管理，统一管理各个任务线程对本地磁盘的读/写请求，为不同的I/O请求设置不同的优先级，动态地进行I/O调度。此外，Mammoth通过在应用层管理内存块的分配回收避免了Full GC的开销，还通过串行I/O和交错I/O相结合的方式提高了磁盘速度。　　Mammoth保持原有Hadoop高可用的上层任务调度和集群管理机制，可以完全兼容已有的MapReduce程序。实验表明，在面对不同的中间数据类型和不同的集群配置时，Mammoth在总的执行时间上均能保持较好的性能提升。当系统内存不足、应用本身属于I/O密集型时，Mammoth的在总执行时间上的加速比达到最优。

其他文献

基于提前绑定更新选项的HMIPv6域间无缝切换研究

IPv6将成为下一代网际协议。可以预见，移动IPv6将在未来网络中为数据、语音、视频等多种实时业务提供一个统一的传输平台，这多种业务的融合对移动IPv6提出了更高的要求——实现

学位

移动IPv6网际协议无缝切换提前绑定更新

安全实时数据库的访问控制与事务并发控制技术

随着计算机网络技术及应用的快速发展，实时数据库系统的应用领域也越来越广。在这些信息中既有一般的可公开信息，也有需要保密的重要信息。实时数据库系统既要保证信息的实时性

学位

实时数据库信息安全优先级调度访问控制事务并发控制

基于组件的web表现层框架的研究和设计

随着面向对象技术的不断发展,许多系统提供了应用相关的面向对象框架供开发人员使用,以简化应用程序的开发。框架是可重用的,“半成品”应用程序,可以在其他的基础上开发特定

学位

WEB表现层组件框架

基于DirectFB的嵌入式GUI框架的设计与实现

随着嵌入式技术的发展和普及，嵌入式系统已渗透到各个行业和领域，图形用户界面在嵌入式系统中扮演的角色越来越重要。数字家电、手持终端设备等消费电子产品，它们需要向用户提供

学位

嵌入式图形用户界面框架结构设计功能分析DirectFB图形库

嵌入式系统中的安全苛求软件的安全性的测试与评估

安全苛求软件事关生命财产，不可轻慢待之。随着嵌入式系统大行其道，嵌入其中的软件，尤其是负责生命攸关功能的安全苛求软件，带来了许多新的安全性问题，于是对其安全性的测试和评估

学位

基于Honeyfarm的蠕虫主动防御系统的研究与实现

随着Internet应用的扩大，网络创造了越来越多的经济效益，承载了更多的社会价值，随之而来的是越来越猛的网络攻击和网络犯罪。面对技术不断翻新、不断增强的攻击，计算机网络安全就

学位

动态陷阱Honeyfarm主动防御入侵检测蠕虫病毒

一种基于集群的证券投资系统SLVS

国内证券行业和互联网技术的快速发展，推动了证券投资系统后端服务器集群系统的发展。在目前基于集群的证券投资系统中，大多数都采用硬件负载均衡器，不但成本高，存在单点故障，而且

学位

证券投资系统集群系统负载均衡

基于运动矢量相角抖动调制视频水印算法研究

信息隐藏技术是信息安全领域的后起之秀，它可以弥补信息加密技术的不足。如果先把重要信息加密，再将其隐藏，将是保证信息安全的更有效的方法。数字视频水印技术在保护视频产品版

学位

视频水印运动矢量抖动调制信息隐藏技术信息安全

IP网络流量特征分析与测量方法研究

Internet已经成为人们生活和经济活动中一个不可或缺的重要组成部分,必须要求有一个可信和可靠的技术来监测和维护网络是否安全、高效、稳定地运行。网络测试和测量技术就是

学位

网络测试自相似性网络流量突发网络流量数据采集拥塞控制虚拟数据包文探针流量整形技术

iSCSI安全存储系统的设计与实现

随着计算机科学与互联网技术的高速发展，网络中产生的数据呈爆炸式增长，如何高效安全的存取数据成为互联网存储领域最大的挑战之一。iSCSI存储以其低成本、高性能和易扩展等优

学位

安全存储系统静态加解密功能缓存机制自适应负载均衡

HPC集群环境下分布式数据处理系统研究

其他学术论文