基于HDFS的小文件存储模型研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户：xiaoyuerhaha

【摘要】

：

大数据是当前计算机领域研究的热点问题之一。企业通过大数据分析消费者行为,部门销售数据等指标,能得出对企业增加市场竞争力产生重要作用的情报数据。随着大数据对企业发展

【作者】

：

李宁

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2014年01期

【关键词】

：

HDFS 小文件分布式合并存储元数据缓存

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据是当前计算机领域研究的热点问题之一。企业通过大数据分析消费者行为,部门销售数据等指标,能得出对企业增加市场竞争力产生重要作用的情报数据。随着大数据对企业发展带来积极的影响,越来越多的企业将利用大数据,以及寻求适用于大数据的数据存储解决方案。HDFS是一个开源的分布式文件系统,因其较低的成本,良好的可靠性等特点而成为企业与科研院所首选的海量数据存储解决方案。HDFS适用于采用流式数据访问和存储超大文件,在存储大数据研究过程中产生的海量小文件时,则表现出存储空间不足,读写效率低下等问题。如何使HDFS高效存储小文件,是一个十分有意义的研究方向。针对HDFS在存储小文件时表现出的效率低下等问题,本文从磁盘、网络通信和元数据等因素详细分析小文件问题产生原因,并提出包含管理节点与工作节点的小文件存储模型以优化HDFS上的小文件问题。论文主要工作如下：(1)提出小文件存储模型架构。存储模型是一个基于HDFS的应用。它通过采用小文件优化存储策略,代替HDFS处理客户端的读写小文件请求,达到优化小文件存储的目的。(2)小文件合并存储。即多个客户端上传的小文件共同保存在一个HDFS文件中,该方法能有效减少HDFS中系统元数据的数目,并降低HDFS读取小文件数据的磁盘寻道时间。(3)小文件索引管理。索引管理主要包括：创建、序列化与反序列化小文件索引。每个工作节点在内存中保存与其相关的小文件集合的索引信息。通过查询索引表实现工作节点快速定位小文件数据在HDFS文件中的偏移地址。(4)小文件缓存管理。本文在工作节点的内存和磁盘上构建小文件缓存区,保存最近写入的和访问频率的小文件。缓存管理内置多种常用缓存置换算法,有效减少工作节点与HDFS交互次数,提高客户端访问小文件的效率。(5)通过部署多节点实验平台,对小文件存储模型进行了读写性能测试。测试结果与HDFS读写文件性能对比发现：小文件存储模型方案具有可行性,且表现出良好的小文件读写性能。

其他文献

核心通信软件维护过程研究及工具实现

随着通信软件的飞速发展，通信软件产品的日益增多，通信软件的维护越发重要，维护过程中存在的问题也越来越明显，对于核心通信软件——即在通信网上提供增值应用、增值业务及为运营

学位

核心通信软件软件维护软件维护过程

基于变化感染率的恶意软件时延传播模型的研究

随着互联网的迅速发展以及网络复杂性的不断增加,网络安全问题日益严重。由于恶意软件传播速度快、破坏力强、影响范围大等特点,因此如何有效地遏制恶意软件的传播已经成为非

学位

恶意软件传播模型变化的感染率隔离策略时延仿真实验

基于Agent的分布式图书馆管理系统

为了适应信息社会的发展及学校图书馆的实际需要,内蒙古扎兰屯市教师进修学校急需引入自已的图书馆管理系统。本文分析了目前我国图书馆管理系统的发展现状及存在的问题,结合

学位

图书馆管理系统Agent分布式系统智能性JADE

一种基于关系数据库的XML文档存储和查询的方法

XML已成为Web上数据表示、集成和交换的标准，它的格式简单、自我描述能力强，实现了内容、结构和表现三者的分离，更适合于数据表示和交换。近年来，XML在各个领域得到了广泛的使用，W

学位

XML关系数据库路径表达式SQL表连接

非特定人孤立词语音识别技术的研究

小词汇量非特定人孤立词语音识别是语音识别领域中的一个重要分支，在家电遥控、智能导航、人机交互等领域都有着广泛的应用价值。近年来，语音识别技术得到了飞跃性的进展，但

学位

语音识别孤立词隐马尔可夫模型自适应矢量量化小波分析ARMA

云存储中集群重复数据删除系统的研究与设计

随着大数据时代的到来,数据已呈爆炸式的增长,海量数据的存储已成为数据中心的首要问题,重复数据大量存在于信息处理与存储的各个环节中,如文件系统、邮件附件、web对象以及

学位

云存储重复数据删除技术数据冗余集群存储分布式文件系统

彩色人脸图像中的眼睛定位及边缘轮廓提取方法研究

人脸自动识别是一种利用计算机分析人脸图像特征以实现人的身份验证的技术，是近二十年来图像处理、模式识别和计算机视觉领域中极富挑战性的研究课题之一。多年来，人们对人脸识

学位

肤色检测眼睛定位边缘提取自适应搜索算法

对象关系映射在企业开发中的研究与应用

面向对象模型基于方法学原理，关系数据模型基于集合论原理，理论基础的不同导致了两种模型之间的阻抗不匹配。为解决这一问题而提出的对象关系映射(Object Relational Mapping，简

学位

对象关系映射对象持久化业务模型

数据网格中副本模型和数据迁移机制的研究

数据网格通过使用网格技术将网络上分散、异构、局部自治的资源整合起来,通过有序管理和协同计算,消除信息孤岛,发挥综合效能,实现资源的广泛共享、有效聚合、充分释放,提供

学位

数据网格中国教育科研网格公共支撑平台副本动态数据迁移域间副本扩散

一种游戏中间件中基于延迟聚集的网络构建策略

随着对等网络(Peer-to Peer,即P2P)技术日趋成熟,P2P技术的应用领域也在逐步扩大。传统的文件共享系统发展日趋成熟,基于P2P的流媒体服务逐步走向完善,P2P游戏已经开始了尝试

学位

对等网络延迟聚集拓扑结构应用层多播

基于HDFS的小文件存储模型研究与实现

与本文相关的学术论文