基于HDFS的小文件存储方法的研究

来源 :大连海事大学 | 被引量 : 25次 | 上传用户:yeyeh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的不断发展,数字信息正在呈现爆炸式的增长,传统的存储方式已不能满足海量数据的需求。如何高效的处理和存储海量数据成为一个亟待解决的问题。目前,很多大型企业都利用HDFS(Hadoop Distributed File System)来存储海量数据。最初的HDFS被设计为适合存储大文件的文件系统,其在存储大文件时具有良好的可靠性和拓展性。但随着互联网的不断发展,HDFS开始应用于海量小文件的存储,其存在的缺点和不足逐渐暴露出来。海量数据中的小文件存储成为制约HDFS整体性能的瓶颈.本文主要研究HDFS存储小文件的问题。针对HDFS存储前的小文件处理工作和存储后的检索,提出了三个算法。算法一,基于特征类型的顺序表小文件合并算法。该算法在研究现有的小文件合并方法的基础上,通过获取小文件数据特征,然后根据其数据特征所属的特征类型,对小文件进行流水式的合并,并建立基于文件名的索引文件交由NameNode统一管理。算法二,基于数据特征的DataNode预分配算法。该算法的目的是提高NameNode的工作效率和减少其因负载过重对整个HDFS造成的性能影响。算法三,基于访问频率的小文件检索算法。该算法借鉴了虚拟存储和页面置换的思想,用户检索时将索引文件载入虚拟内存并且根据索引文件的访问频率进行索引文件的置换,从而实现从海量的索引文件中快速查找到需要的小文件。通过在实验室集群上搭建Hadoop实验环境,设计了三种不同的实验用例,对我们提出的三个算法进行了系统的测试。实验结果表明:我们提出的三个算法有效地提高了HDFS对小文件的存储和读取效率,并且优化了整个HDFS的存储性能。
其他文献
目的:分析睾丸生殖细胞肿瘤患者行睾丸部分切除术后的1、3、5年生存率。方法:运用回顾性分析的方法 1998年10月至2008年10月110例来我院行睾丸部分切除术的睾丸生殖细胞肿瘤
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
目的:建立广西地不容块根药材和常见混伪品雪胆块根的鉴别区分方法。方法:采用性状鉴别、显微鉴别和薄层色谱鉴别法。结果:显微鉴别广西地不容块根可见草酸钙针晶与方晶,雪胆
目的:(1)验证“从心论治”治疗儿童抽动障碍的观点,完善对该病中医病机的认识,为静心止动方从心论治抽动障碍提供实验依据。(2)根据静心止动方治疗抽动障碍的临床疗效及相关数
船舶轴带发电机可以提高主机综合效率,降低航运燃料费用,符合现代船舶高效节能的要求。目前,在远洋运输船舶中大量采用,但是远洋运输船舶一般采用定距桨,主机转速变化较大,当
一个国家或地区要实现现代化,必须加强基础设施建设,加快农村工业化和城市化步伐,大力发展工业和服务业,发展城市经济,扩大城市规模。而要推进工业化和城市化,就必须不断把一
目的:了解云南省怒江州儿童健康现状及危害儿童健康的影响因素。方法:选取佝偻病患病率、生长迟缓率、低体重率作为关键指标计算所需7岁以下儿童样本量,使用四阶段抽样方法进
随着计算机断层扫描技术、核磁共振成像技术的出现和在临床上的使用,医学诊断和治疗技术取得了很大的进展。但是二维图像只能显示某个切面内像素之间的相关关系,而将二维断层
设计初期对高大空间空调气流组织的预测以及对不同设计方案空调效果的预测,一直是困扰工程设计人员的难题。随着计算机技术的高速发展以及计算流体动力学(CFD,ComputationalF