基于HDFS的小文件存储方法的研究

来源 :大连海事大学 | 被引量 : 25次 | 上传用户：yeyeh

【摘要】

：

随着科学技术的不断发展,数字信息正在呈现爆炸式的增长,传统的存储方式已不能满足海量数据的需求。如何高效的处理和存储海量数据成为一个亟待解决的问题。目前,很多大型企

【作者】

：

董其文

【出处】

：

大连海事大学

【发表日期】

：

2013年01期

【关键词】

：

HDFS 数据特征小文件存储

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的不断发展,数字信息正在呈现爆炸式的增长,传统的存储方式已不能满足海量数据的需求。如何高效的处理和存储海量数据成为一个亟待解决的问题。目前,很多大型企业都利用HDFS(Hadoop Distributed File System)来存储海量数据。最初的HDFS被设计为适合存储大文件的文件系统,其在存储大文件时具有良好的可靠性和拓展性。但随着互联网的不断发展,HDFS开始应用于海量小文件的存储,其存在的缺点和不足逐渐暴露出来。海量数据中的小文件存储成为制约HDFS整体性能的瓶颈.本文主要研究HDFS存储小文件的问题。针对HDFS存储前的小文件处理工作和存储后的检索,提出了三个算法。算法一,基于特征类型的顺序表小文件合并算法。该算法在研究现有的小文件合并方法的基础上,通过获取小文件数据特征,然后根据其数据特征所属的特征类型,对小文件进行流水式的合并,并建立基于文件名的索引文件交由NameNode统一管理。算法二,基于数据特征的DataNode预分配算法。该算法的目的是提高NameNode的工作效率和减少其因负载过重对整个HDFS造成的性能影响。算法三,基于访问频率的小文件检索算法。该算法借鉴了虚拟存储和页面置换的思想,用户检索时将索引文件载入虚拟内存并且根据索引文件的访问频率进行索引文件的置换,从而实现从海量的索引文件中快速查找到需要的小文件。通过在实验室集群上搭建Hadoop实验环境,设计了三种不同的实验用例,对我们提出的三个算法进行了系统的测试。实验结果表明：我们提出的三个算法有效地提高了HDFS对小文件的存储和读取效率,并且优化了整个HDFS的存储性能。

其他文献

睾丸生殖细胞肿瘤患者行睾丸部分切除术的1、3、5年生存率分析

目的:分析睾丸生殖细胞肿瘤患者行睾丸部分切除术后的1、3、5年生存率。方法:运用回顾性分析的方法 1998年10月至2008年10月110例来我院行睾丸部分切除术的睾丸生殖细胞肿瘤

期刊

睾丸生殖细胞肿瘤睾丸部分切除术生存率

上海戏剧学院2013级表演系、舞美系毕业剧目话剧《茶馆》剧照

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

上海戏剧学院《茶馆》

广西地不容块根与雪胆块根的鉴别

目的:建立广西地不容块根药材和常见混伪品雪胆块根的鉴别区分方法。方法:采用性状鉴别、显微鉴别和薄层色谱鉴别法。结果:显微鉴别广西地不容块根可见草酸钙针晶与方晶,雪胆

期刊

广西地不容雪胆鉴别

静心止动方治疗抽动障碍的免疫及神经生化机制研究

目的：(1)验证“从心论治”治疗儿童抽动障碍的观点,完善对该病中医病机的认识,为静心止动方从心论治抽动障碍提供实验依据。(2)根据静心止动方治疗抽动障碍的临床疗效及相关数

学位

抽动障碍静心止动方神经递质免疫功能

船舶轴带发电机中无功补偿技术的研究

船舶轴带发电机可以提高主机综合效率,降低航运燃料费用,符合现代船舶高效节能的要求。目前,在远洋运输船舶中大量采用,但是远洋运输船舶一般采用定距桨,主机转速变化较大,当

学位

船舶轴带发电机静止无功发生器瞬时无功功率模糊PI控制

失地农民的城市融入研究

一个国家或地区要实现现代化,必须加强基础设施建设,加快农村工业化和城市化步伐,大力发展工业和服务业,发展城市经济,扩大城市规模。而要推进工业化和城市化,就必须不断把一

学位

失地农民城市化城市融入城乡结合部

云南省怒江州儿童健康状况及影响因素分析

目的:了解云南省怒江州儿童健康现状及危害儿童健康的影响因素。方法:选取佝偻病患病率、生长迟缓率、低体重率作为关键指标计算所需7岁以下儿童样本量,使用四阶段抽样方法进

期刊

西部地区少数民族儿童健康影响因素

基于ITK和VTK的医学图像处理系统设计与实现

随着计算机断层扫描技术、核磁共振成像技术的出现和在临床上的使用,医学诊断和治疗技术取得了很大的进展。但是二维图像只能显示某个切面内像素之间的相关关系,而将二维断层

学位

医学图像三维可视化DICOMQtITKVTK

高大中庭空调气流组织的数值模拟研究

设计初期对高大空间空调气流组织的预测以及对不同设计方案空调效果的预测,一直是困扰工程设计人员的难题。随着计算机技术的高速发展以及计算流体动力学(CFD,ComputationalF

学位

高大中庭气流组织CFD分层空调热舒适

还精补脑的科学探索

期刊

神经末梢神经活性物质房中术科学探索神经细胞

基于HDFS的小文件存储方法的研究

其他学术论文