Hadoop平台存储策略的研究与优化

被引量 : 60次 | 上传用户:fei5301821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济、社会以及科学技术的发展,数字信息正在经历爆炸式的增长。信息化和互联网的发展以及廉价的存储设备的出现,为海量信息存储提供了动力和物理基础。数据量比较小的时候,存储和备份数据比较简单,随着数据量达到TB甚至PB级别,存储和备份如此庞大的数据成为一个棘手的问题,而且人们对数据的存储效率和安全性的要求也在不断的提高。如何高效的存储和读取数据成为人们关注的重点,云计算是目前比较成熟的方案,是对数据存储和数据安全的一个有效解决办法,能够提高数据的安全性和存储速度。Hadoop是云计算里面比较流行的框架,具体高可靠性、高效性、高扩展性和高容错性的优势。而且它是开源框架,非常适合科研和应用,所以本文选择Hadoop框架作为云计算的研究对象。基于如何高效存储海量数据的问题,本文在分析Hadoop的HDFS(Hadoop Distributed File System)原理和存储策略基础上,结合实际应用Hadoop平台遇到的问题,分析其HDFS文件系统数据存储策略的局限和不足,提出了HDFS分布式文件系统的优化存储策略DIFT(Dstat Iostat Free Top)。DIFT存储策略利用更完善的数据节点的状态信息作为策略依据,能够提高集群的磁盘和网络带宽的利用率,减少瓶颈出现的可能性,提高了系统性能,使集群具有更好的负载均衡和用户体验。本文主要研究内容是:首先对Hadoop的HDFS模型的原理研究和分析,从控制节点、数据节点、文件块的数据结构以及接口、类、方法的调用关系方面详细分析和研究,分析HDFS的运行原理和功能的实现方法。其次从数据结构、状态信息、心跳协议等方面研究和设计DIFT存储策略的实现,最后编译含有DIFT存储策略的Hadoop代码,把DIFT存储策略应用到Hadoop集群上,实验验证和测试策略的效果。DIFT存储策略具有可配置的特性,设计时充分考虑用户实际情况的特殊性,用户可以根据自己实际需求设置符合实际应用的策略配置。实验证明,DIFT存储策略提高了Hadoop的HDFS分布式文件系统的存储效率,使得平台能够高效的处理海量数据的存储。HDFS分布式文件系统运行在廉价的机器搭建稳定的Hadoop云平台之上,同时配置高效的DIFT存储策略,可以很好的满足实际应用的需求,完全可以作为企业和学校的数据中心的平台。同时具有可配置的存储策略的优化,直接配置符合实际应用的策略和阈值即可,减少了企业和学校开发的周期。
其他文献
《老子》是先秦道家的经典性文献,经过数千年的传承、演绎,后人已无从知晓原书旧貌,不可避免的出现许多众说纷纭甚至悬而未决的问题。所幸,我们得以借助出土文献来窥探《老子
在全球化的时代 ,资本和人才流动性很高 ,世界各地的竞争日益加剧。许多城市采用创业型的政策来加强城市竞争力。城市管治也从管理型向创业型转变 ,使城市管治问题变得更加复
<正>如同人一样,城市也会生病。近年来,在我国多个大城市集中爆发的"城市病",正严重侵蚀着城市居民的幸福感。有人这样形容"城市病":"交通拥堵如肠梗阻,空气污染是哮喘,水污
<正>进入21世纪以来,北京市抓住筹备奥运的重要战略机遇,加速推进发展方式转变,经济社会发展取得了巨大成就,与此同时,北京发展也面临着人口过快集聚、交通严重拥堵、资源环
BBC 2010年8月3日为保护热带雨林,厄瓜多尔政府8月3日与联合国签署约36亿美元的经济援助方案:厄瓜多尔承诺不在亚马孙原始雨林中开采石油,但是作为交换 BBC 3 August 2010 T
地源热泵系统是一项新兴的建筑节能技术,它通过与地下环境进行热交换实现对建筑物的制冷与供暖,为当代建筑设计带来了新的课题。对现有地源热泵技术进行分类介绍,分析各类地
CFRP作为一种高性能材料,具有优异的物理性能、质量轻、耐腐蚀性、施工方便和占用空间小等优点,已成为加固钢筋混凝土结构的主要材料,对其加固设计方法和加固计算理论分析是
山西大同盆地地区土壤盐渍化严重。为了进行合理有效地生态修复与利用,本文首先在苗圃栽培甘蒙柽柳、枸杞、樟子松、杜松、白榆和新疆杨6个当地树种幼苗,以5%、3%、1%、0%(CK
随着国民经济的快速发展,质量问题越来越成为人们关注的焦点。对于矿区服务企业来说,民生工程项目的质量与职工群众的日常生活密切相关。如何保证民生工程项目的质量,提高民生工
针对多项目调度资源利用率低的问题,提出任务可拆分的多模式多项目调度模型。采用多属性效用函数对工期—成本—质量—资源均衡进行目标优化,以提高资源利用率、缩短工期,实