HDFS高可用性方案的研究与设计

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：qiyueliuhua

【摘要】

：

随着互联网上数据的不断增长,各种数据量在本世纪开始以来的15年时间里已经呈指数级的增长趋势。传统的存储系统已无法在数据处理和数据存储管理方面满足海量数据的需求,而分

【作者】

：

袁国伟

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2015年期

【关键词】

：

高可用性单点故障 HDFS Namenode Datanode 失效切换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网上数据的不断增长,各种数据量在本世纪开始以来的15年时间里已经呈指数级的增长趋势。传统的存储系统已无法在数据处理和数据存储管理方面满足海量数据的需求,而分布式计算框架恰好在数据处理和数据存储管理方面较好地弥补了传统技术的不足。Hadoop是一个能够处理海量数据的分布式计算框架,具有高可扩展性、髙性能、高吞吐量等优点,因此在大数据处理和存储领域得到广泛的应用。HDFS是Hadoop的底层分布式文件系统,是一个提供高性能、高可靠、高可扩展的文件系统,为整个系统提供存储服务。HDFS采用了元数据与真实数据分离的设计模式,并且由一个中心服务器管理这些元数据的名字空间,即在HDFS中存在着一个叫Namenode的节点管理着整个HDFS的元数据,这也带来一个新的问题,即一旦维护着整个HDFS元数据的Namenode失效,那么整个HDFS将会变得不可用,而这个Namenode也便成了整个HDFS的一个单点故障问题(SPOF)。本文针对Namenode的单点故障问题,通过研究分析业界流行的高可用方案,在深入了解了HDFS的架构机制后,提出了一种采用热备Namenode的HDFS高可用方案。该方案能够很好的解决HDFS集群中Namenode的单点故障问题,而不会牺牲较高的性能。该方案在原有HDFS架构的基础上,引进一个热备的Namenode节点,即standby Namenode。并且不断同步active Namenode与standby Namenode内存中的元数据,以保持名字空间的一致性。为了降低HDFS在切换时候所需要的时间,本系统在切换Namenode的时候仅导入日志文件中的数据。这样在active Namenode掉线不可用的时候,系统能够自动且快速的切换到standby Namenode。此外在现有的Hadoop集群中,还存在着另外一个问题。集群中的数据块的访问率也不尽相同,有些数据块的访问率很高,有些则相反。在采取同一种配置的情况下会导致不能很好的利用集群中的资源。因此本文在研究分析了HDFS架构中数据块的存储机制以及奇偶校验算法之后,提出了一种基于奇偶校验算法的数据块弹性存储方案。将奇偶校验算法应用到HDFS数据块存储机制当中。这样不仅仍具有一定的Datanode高可用性,还大大提高了HDFS存储空间的利用率,同时还能节省一大笔如设备、维护、电力等等资源。

其他文献

基于数据广播的移动数据库缓存策略研究

伴随着计算机技术、移动通讯技术和互联网技术的迅速发展,计算方式也在不断地变化。当今新兴的移动计算模式使人们在任何时候、任何地点访问自己需要的信息成为可能。然而移

学位

移动数据库数据广播数据缓存失效报告数据一致性

基于统计机器学习的中文词法分析研究

词法分析是自然语言处理技术的基础，其性能将直接影响句法分析及其后续应用系统的性能。词法分析作为基础性处理步骤，其前期的错误会沿处理链条扩散，并最终影响面向终端用户的应

学位

统计机器学习中文词法分析隐马尔可夫模型错误驱动学习支持向量机文语转换

基于近邻分类的实例选择算法研究

近邻分类算法是机器学习领域应用最为广泛的学习算法之一,但该方法需要较大的计算量和存储量。因此,基于近邻分类的实例选择成为研究焦点之一。此外,现有的基于近邻分类的实

学位

近邻分类实例选择分类贡献极大熵标注代价

ABEEMσπ模型生物大分子电荷分布并行处理的研究

近年来随着计算机技术的飞速发展,分子动力学模拟已经成为生物大分子理论研究的一种十分重要的工具,大量用于研究生物分子及其复合体的结构、动力学和热力学过程。对于大分子

学位

ABEEMσπ模型电荷分布并行处理任务划分通信优化

基于支持向量机和遗传算法的图像盲水印研究

随着网络的发展和计算机的普及,人们可以方便地从网络中下载、复制、修改和传播数字图像,随之而来的是数字图像版权保护的问题。数字图像水印作为一种有效保护数字图像版权的

学位

数字图像水印支持向量机遗传算法人类视觉系统离散余弦变换

基于LOD的地表特征物与地形的融合绘制

地表特征物与地形的融合对三维虚拟环境真实感有重要作用。在地形的交互仿真应用中,由于视点接近地面,所以对地物与地形的融合细节和精度要求较高。然而,在实际开发过程中,由

学位

地形融合虚拟环境裂缝处理细节层次模型实时绘制

三维矢量场可视化方法的研究

矢量场可视化是科学计算可视化的一个重要研究领域，基于纹理的LIC算法能够全面、细致的描述矢量场的信息，LIC大多被应用在二维领域，或者将LIC图像映射到三维表面。LIC在三维领域

学位

矢量场可视化点拓展科学计算计算可视化图像映射

基于领域本体的用户查询词扩展方法的研究

查询词扩展技术作为一种提高信息检索精度的技术,被广泛应用到了搜索引擎中,并成为一个研究热点。本体是共享概念模型的明确地形式化规范说明,其中包含概念模型、明确、形式

学位

搜索引擎领域本体领域相关词查询词扩展

基于表单的分布式工作流系统研究与实现

工作流系统从架构上可分为集中式工作流系统和分布式工作流系统,相对于传统的集中式工作流系统而言,分布式工作流系统不但具有传统集中式工作流系统的所有功能,而且还具有可

学位

工作流表单模型引擎COM

基于SIP协议的IM研究与设计

即时通讯软件是指利用方便快捷的网络通讯技术,为用户在网络上提供一个即时性的交流平台。由于互联网的迅猛发展、互联网用户整体基数的增长,使得用户对于即时通讯软件的功能

学位

即时通讯软件初始会话协议SIMPLE协议SIP协议栈

HDFS高可用性方案的研究与设计

其他学术论文