基于HDFS的多Namenode元数据管理研究

来源 :电子科技大学 | 被引量 : 12次 | 上传用户:jiaoranbuzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这是一个数据高速扩张的时代。根据技术研究机构IDC的预计,大量新数据无时不刻不在涌现,它们以每年50%的速度在增长,或者说每两年就要翻一番多。并不仅仅是数据的洪流越来越大,而且全新的支流也会越来越多。并且数据呈现出大量、多样、快速和高价值的特点。数据没有办法在可容忍的时间内使用常规的软件方法完成存储、管理和任务处理。如何应对数据的挑战成为一个亟待解决的难题。越来越多的高校、科研机构、互联网公司投入到大规模数据存储和计算模型及工具的研究工作当中。而作为一个适用于解决大规模数据的分布式存储和计算基础架构的技术集合,Apache软件基金会的Hadoop项目自诞生以来就备受瞩目,成为了业界研究和应用的热点,并被誉为“打开大数据之门的金钥匙”。本文的主要研究对象是Hadoop项目中的分布式文件系统HDFS。HDFS作为Hadoop中的基础模块,为诸如MapReduce、HBase等其他上层工具提供基础数据的支撑。而HDFS在应用到大规模分布式项目时,也暴露出了一些架构上的缺陷。HDFS中单个Namenode的架构会影响到系统的可用性,并且会成为整个文件系统性能的瓶颈。本文针对以上缺陷,提出了一种改进的HDFS多Namenode架构,将Namenode水平扩展到集群中的多个节点,Namenode构成一个集群系统,并根据功能划分为Namenode Leader和Common Namenode两种角色;通过心跳机制获取Namenode集群的在线状态和负载信息;在研究了几种分布式一致性策略后,设计了基于Paxos算法的Namenode Leader选举机制;并设计了集群中节点失效的处理流程。对于分布式Namenode架构带来的元数据管理的问题,基于对元数据结构和访问特点的分析,对Namenode所维护的命名空间和元数据服务进行分布,提出了一种基于哈希算法和集群实时负载情况的两级Namenode元数据分布策略;设计了元数据在Namenode集群中的冗余机制;对于元数据在冗余节点上的一致性问题,基于经典的分布式一致性算法Paxos算法,设计了元数据的一致性保障机制。最后,通过实验证明了改进的HDFS架构的高可用性和读写效率。
其他文献
目的:探讨从芒果叶中提取高纯度芒果苷的技术与工艺。方法:采用有机溶剂从芒果叶中提取芒果苷,采用大孔树脂脱色。结果:试产3批,芒果苷平均收率58.92%,平均含量97.04%。结论:
随着光互联技术的发展和“光进铜退”的趋势,接入网已经开始采用无源光网络的构架。其中10G-EPON因为其兼容性好、速率高、传输距离远、成本低、可靠性高等特点,是下一代光纤接
随着电力电子与先进控制技术的不断革新与进步,对电力设备的用电性能指标要求也更严格。传统变换器前级主要采用整流桥完成AC/DC功能,再采取PFC环节来限制谐波、提高功率因数和
为了研究康胃冲剂对实验性大鼠慢性胃炎的治疗作用,观察了康胃冲剂对胆汁性大鼠慢性胃炎的治疗效果,以病理改变,胃粘膜前列腺素E2(PGE2)及己糖胺(Hex)的含量,胃粘膜血流(GMBF)为疗
随着医疗事业的不断发展,我国医疗技术也得到了有效的进步,医疗技术在不断完善。这其中,医疗测量仪器技术得到了显著的发展,能够更好地支持医疗信息记录工作。本文通过对医疗
目的采用qRT-PCR技术,通过检测宫颈癌患者外周血中CK19和SCCAg基因的表达,比较宫颈癌根治术术前、术后24小时及术后30天CK19和SCCAg基因相对表达量以及阳性检出率的变化,研究
目的观察酮替芬联合沙美特罗替卡松治疗变应性咳嗽的临床效果。方法选取2013年1月至2014年1月本院收治的80例变应性咳嗽患者为研究对象,采用随机数表法将其分为观察组和对照
目的:探讨小儿慢性咳嗽的病因,做出准确诊断,制定具体治疗方案。方法:选择56例慢性咳嗽患儿,经胸片或副鼻窦拍片和血常规检查。结果:55例经抗生素、阿奇霉素、抗组胺药、局部
摩洛哥是一个复杂的多语言国家,主要有阿拉伯语、柏柏尔语和法语等。独立后摩洛哥长期实行单一的阿拉伯化语言政策,这一政策直到2000年才进行调整。摩洛哥的阿拉伯化语言政策
本论文以成都国际非物质文化遗产博览园的目标成本管控案例为目标,分析其目标成本控制中失败的经验教训和存在的问题,进一步分析挖掘其产生问题的根本原因,并提出解决问题的方法