HDFS高可用性方案的研究与设计

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:qiyueliuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上数据的不断增长,各种数据量在本世纪开始以来的15年时间里已经呈指数级的增长趋势。传统的存储系统已无法在数据处理和数据存储管理方面满足海量数据的需求,而分布式计算框架恰好在数据处理和数据存储管理方面较好地弥补了传统技术的不足。Hadoop是一个能够处理海量数据的分布式计算框架,具有高可扩展性、髙性能、高吞吐量等优点,因此在大数据处理和存储领域得到广泛的应用。HDFS是Hadoop的底层分布式文件系统,是一个提供高性能、高可靠、高可扩展的文件系统,为整个系统提供存储服务。HDFS采用了元数据与真实数据分离的设计模式,并且由一个中心服务器管理这些元数据的名字空间,即在HDFS中存在着一个叫Namenode的节点管理着整个HDFS的元数据,这也带来一个新的问题,即一旦维护着整个HDFS元数据的Namenode失效,那么整个HDFS将会变得不可用,而这个Namenode也便成了整个HDFS的一个单点故障问题(SPOF)。本文针对Namenode的单点故障问题,通过研究分析业界流行的高可用方案,在深入了解了HDFS的架构机制后,提出了一种采用热备Namenode的HDFS高可用方案。该方案能够很好的解决HDFS集群中Namenode的单点故障问题,而不会牺牲较高的性能。该方案在原有HDFS架构的基础上,引进一个热备的Namenode节点,即standby Namenode。并且不断同步active Namenode与standby Namenode内存中的元数据,以保持名字空间的一致性。为了降低HDFS在切换时候所需要的时间,本系统在切换Namenode的时候仅导入日志文件中的数据。这样在active Namenode掉线不可用的时候,系统能够自动且快速的切换到standby Namenode。此外在现有的Hadoop集群中,还存在着另外一个问题。集群中的数据块的访问率也不尽相同,有些数据块的访问率很高,有些则相反。在采取同一种配置的情况下会导致不能很好的利用集群中的资源。因此本文在研究分析了HDFS架构中数据块的存储机制以及奇偶校验算法之后,提出了一种基于奇偶校验算法的数据块弹性存储方案。将奇偶校验算法应用到HDFS数据块存储机制当中。这样不仅仍具有一定的Datanode高可用性,还大大提高了HDFS存储空间的利用率,同时还能节省一大笔如设备、维护、电力等等资源。
其他文献
伴随着计算机技术、移动通讯技术和互联网技术的迅速发展,计算方式也在不断地变化。当今新兴的移动计算模式使人们在任何时候、任何地点访问自己需要的信息成为可能。然而移
词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。词法分析作为基础性处理步骤,其前期的错误会沿处理链条扩散,并最终影响面向终端用户的应
近邻分类算法是机器学习领域应用最为广泛的学习算法之一,但该方法需要较大的计算量和存储量。因此,基于近邻分类的实例选择成为研究焦点之一。此外,现有的基于近邻分类的实
近年来随着计算机技术的飞速发展,分子动力学模拟已经成为生物大分子理论研究的一种十分重要的工具,大量用于研究生物分子及其复合体的结构、动力学和热力学过程。对于大分子
随着网络的发展和计算机的普及,人们可以方便地从网络中下载、复制、修改和传播数字图像,随之而来的是数字图像版权保护的问题。数字图像水印作为一种有效保护数字图像版权的
地表特征物与地形的融合对三维虚拟环境真实感有重要作用。在地形的交互仿真应用中,由于视点接近地面,所以对地物与地形的融合细节和精度要求较高。然而,在实际开发过程中,由
矢量场可视化是科学计算可视化的一个重要研究领域,基于纹理的LIC算法能够全面、细致的描述矢量场的信息,LIC大多被应用在二维领域,或者将LIC图像映射到三维表面。LIC在三维领域
查询词扩展技术作为一种提高信息检索精度的技术,被广泛应用到了搜索引擎中,并成为一个研究热点。本体是共享概念模型的明确地形式化规范说明,其中包含概念模型、明确、形式
工作流系统从架构上可分为集中式工作流系统和分布式工作流系统,相对于传统的集中式工作流系统而言,分布式工作流系统不但具有传统集中式工作流系统的所有功能,而且还具有可
即时通讯软件是指利用方便快捷的网络通讯技术,为用户在网络上提供一个即时性的交流平台。由于互联网的迅猛发展、互联网用户整体基数的增长,使得用户对于即时通讯软件的功能