HPC集群环境下分布式数据处理系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:huxianding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop以其高可用性成为当前大数据处理使用最广泛的工具,它是Google MapReduce和GFS的开源实现。相对于可用性,Hadoop的运行效率容易受到软硬件环境的影响。大型IT公司往往部署专门的Hadoop集群,对软硬件都进行有针对性的配置,其性能表现较好。然而通过调研发现,很多中小公司、高校的软硬件配置并不理想;另外,HPC系统的计算能力很强,但其他资源的配置相对有限,比如,天河2号平均单核内存不足0.33GB。在这些情况下,Hadoop的性能将大幅降低。  适用于HPC集群环境的分布式数据处理系统Mammoth,对MapReduce的执行机制进行了一系列优化。首先,Mammoth设计并实现了多线程的Map/Reduce任务执行引擎,在每个TaskTracker节点上设置一个单独的任务执行进程,所有的任务都被调度到该进程中以线程方式执行;其次,提取Map任务和Reduce任务对内存使用的细节特征,根据这些特征将Map/Reduce任务更细粒度地划分为多个子阶段;再次,实现全局的内存管理,统一管理各个任务线程对内存的使用,设计自适应的内存调度算法,动态分配和回收各个任务使用到的内存;最后,实现全局的I/O管理,统一管理各个任务线程对本地磁盘的读/写请求,为不同的I/O请求设置不同的优先级,动态地进行I/O调度。此外,Mammoth通过在应用层管理内存块的分配回收避免了Full GC的开销,还通过串行I/O和交错I/O相结合的方式提高了磁盘速度。  Mammoth保持原有Hadoop高可用的上层任务调度和集群管理机制,可以完全兼容已有的MapReduce程序。实验表明,在面对不同的中间数据类型和不同的集群配置时,Mammoth在总的执行时间上均能保持较好的性能提升。当系统内存不足、应用本身属于I/O密集型时,Mammoth的在总执行时间上的加速比达到最优。
其他文献
IPv6将成为下一代网际协议。可以预见,移动IPv6将在未来网络中为数据、语音、视频等多种实时业务提供一个统一的传输平台,这多种业务的融合对移动IPv6提出了更高的要求——实现
随着计算机网络技术及应用的快速发展,实时数据库系统的应用领域也越来越广。在这些信息中既有一般的可公开信息,也有需要保密的重要信息。实时数据库系统既要保证信息的实时性
随着面向对象技术的不断发展,许多系统提供了应用相关的面向对象框架供开发人员使用,以简化应用程序的开发。框架是可重用的,“半成品”应用程序,可以在其他的基础上开发特定
随着嵌入式技术的发展和普及,嵌入式系统已渗透到各个行业和领域,图形用户界面在嵌入式系统中扮演的角色越来越重要。数字家电、手持终端设备等消费电子产品,它们需要向用户提供
安全苛求软件事关生命财产,不可轻慢待之。随着嵌入式系统大行其道,嵌入其中的软件,尤其是负责生命攸关功能的安全苛求软件,带来了许多新的安全性问题,于是对其安全性的测试和评估
学位
随着Internet应用的扩大,网络创造了越来越多的经济效益,承载了更多的社会价值,随之而来的是越来越猛的网络攻击和网络犯罪。面对技术不断翻新、不断增强的攻击,计算机网络安全就
国内证券行业和互联网技术的快速发展,推动了证券投资系统后端服务器集群系统的发展。在目前基于集群的证券投资系统中,大多数都采用硬件负载均衡器,不但成本高,存在单点故障,而且
信息隐藏技术是信息安全领域的后起之秀,它可以弥补信息加密技术的不足。如果先把重要信息加密,再将其隐藏,将是保证信息安全的更有效的方法。数字视频水印技术在保护视频产品版
Internet已经成为人们生活和经济活动中一个不可或缺的重要组成部分,必须要求有一个可信和可靠的技术来监测和维护网络是否安全、高效、稳定地运行。网络测试和测量技术就是
随着计算机科学与互联网技术的高速发展,网络中产生的数据呈爆炸式增长,如何高效安全的存取数据成为互联网存储领域最大的挑战之一。iSCSI存储以其低成本、高性能和易扩展等优