论文部分内容阅读
随着数据爆炸的时代到来,海量数据存储的问题也随之而来。HDFS(Hadoop Distributed File System)作为主流的开源云计算系统Hadoop的基础构件之一,由于其低成本、高度容错、支持大数据集等特点成为解决数据密集型应用的海量数据存储问题的首选方案之一。在HDFS越来越被广大企业重视和采用的时候,HDFS存在的一些问题也逐渐显现。首先,因为HDFS采用Master/Slaves主从架构,一旦Master节点发生故障,整个集群都无法提供服务,因此HDFS存在单点故障。其次,目前针对HDFS系统的访问还没有很友好的用户访问工具,使用起来门槛较高。 本文通过对HDFS的应用现状进行研究,从集群可用性、访问便捷性以及监控维护简易性等角度对HDFS进行改进,提出了一个多角度的基于HDFS的云存储系统构建方案。该方案的主要优点在于:(1)利用DRBD和Heartbeat实现了Namenode的双机备份,解决了HDFS的单点故障。(2)利用次备节点定期Checkpoint,优化了Namenode重启过程,减少了Namenode重启和切换过程中的等待时间。(3)改进了WebHDFS,实现了基于Web的文件存储系统,提供了直观便捷的文件系统访问方式。(4)采用Ganglia作为集群监控方案,提高了集群的可监控性和易维护性。