基于HDFS的小文件处理与副本策略优化研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:gw678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为GFS的开源实现,Hadoop Distributed File System (HDFS)在大文件的处理上表现突出,然而在处理小文件时却效率低下,主要因为海量小文件非常耗费NameNode节点的内存,从而使得单一的NameNode节点容易成为整个集群的性能瓶颈。此外,HDFS采用静态三副本策略,以机架感知的方式确定副本的存放位置。这一策略虽然可以部分实现容错和负载均衡,但缺陷也非常明显,策略过于僵化,不仅造成较大的存储资源浪费,而且负载均衡效果也不理想。针对HDFS处理小文件时存在的不足,本文提出了基于索引机制的小文件处理优化方案,核心思想是通过DataNode部分替代NameNode的作用,以分散小文件处理的压力,解决HDFS在大量请求下的单NameNode瓶颈问题,同时引入缓存策略,进一步优化文件读取效率。此外,为了实现均衡存储,本文提出了DataNode节点综合量化指标,并在此基础上提出了动态副本策略,实现了动态副本放置算法。归纳整个研究过程,本文主要取得了以下几点创新成果:1、针对HDFS处理小文件效率低下的问题,本文提出了更为通用的基于索引机制的小文件处理优化方案,实现了小文件的分布式处理,降低了NameNode节点的瓶颈效应,提升了小文件的处理效率;2、在索引方案基础上,本文将缓存策略引入文件读取过程中,实现了分布式独立缓存,优化了HDFS的I/O操作,提高了HDFS文件读取速度;3、针对HDFS原有的静态三副本策略导致存储效率低,存储分布不均衡的问题,本文提出了新的动态副本策略,通过多项指标综合量化DataNode节点的性能,实现了动态副本放置算法,提高了集群的均衡性和存储效率。在测试集群上的实验结果表明,无论是基于索引机制的小文件优化方案,还是动态副本策略,相对原始的HDFS系统,在性能上均有了较大改善,相对已有优化方案也有较明显的优势。
其他文献
职工队伍是单位综合竞争力的源泉,是环卫事业实现可持续发展的战略资源。人力资源管理通过对人的思想、心理和行为进行引导、控制和协调,从而充分发挥人的能动作用,更好地为
近年来随着治疗策略的变化,新的联合用药方案的提出以及新药问世,带动了一系列恶性黑色素瘤的临床试验,并取得了一些可喜的结果。全文就化疗、免疫制剂、生物化疗和靶向药物
<正> 弓弦乐器,就目前所见资料,作为中国乐器发展史上第四大类的确立,应从唐代始,此前属于实验性阶段.唐代典籍中对轧筝和嵇琴的记载,确认了中国弓弦乐器从实验性的漫长阶段
对钝体桥梁模型在尾流激励下的随机振动进行辨识,得到气动导数。建立气动导数辨识误差因子,衡量辨识效果。在辨识过程中,通过输出协方差估计得到虚拟马科夫参数的时间序列,利
中国目前处在一个高速的发展期,面对千篇一律的国际化和现代化时代的来临,中国的建筑界正面临着一个巨大的机遇与挑战。回望中国传统文化建筑曾让海内外的专家和学者为之膜拜
跨进新世纪以来,随着我国不断发展的法制建设,不断深化的法治理念,不断推进的法官职业化进程,国家、社会和人民对法官职业道德教育提出了更高的要求。通过加强法官职业道德教育,提
近些年来,我国各中职学校的英语课堂的教学现状不是很理想。一方面,大部分学生的基础相对来说比较差,英语学习态度不端正,学习积极性、主动性不够;另一方面,大多数的中职学校
融资性担保行业一直以来在扶持中小企业发展以及保障政府有关经济政策的顺利实现等方面发挥着重要作用。本文以河南为例,讨论当前融资性担保行业的现状,银保和民保两种业务形
目的:①验证三黄屏风膏穴位贴敷防治小儿反复呼吸道感染(recurrentrespiratory tract infection,RRTI)的疗效,并探索其作用机理。②为临床上开展穴位贴敷疗法提供安全有效的依据
随着我国老龄化问题的日益严重,我国养老问题越来越受到关注。特别是随着我国实行计划生育40年以来,家庭逐渐变成4-2-1结构,同时随着人口的迁徙和福利政策的变动,传统的家庭养老