论文部分内容阅读
现今,人们赶上了互联网的大潮,进入了互联网爆炸的时代。数据以超乎过去几十甚至几百倍的速度在不断增长,这导致了人们处理的信息量较之过去呈现指数级上升。当面临问题时,已经不再是几台个人计算机能够搞定的范畴。互联网将全世界人类的大脑集中在一起的同时,也抛出了一个难题:如何处理海量爆炸式增长的数据。为了解决这一难题,人们提出了云的概念,由此衍生出了分布式理论的雏形。另外,各大公司的不同应用对云端数据存储的要求越来越高,尤其是针对不同场景提出了不同的要求,都使得传统的分布式框架在处理问题的时候有气无力。为了丰富用户不断增加的需求的变化以及为了提高更好的用户体验,现有的分布式文件系统做了其相应的改变。实验室也本着科研的目的,借鉴国内外经典的分布式系统框架,设计了我们自己的分布式文件系统C_STORE。本文首先介绍了国内外集中主流的分布式文件系统,并对它们进行了研究,继而给出本系统数据管理模块的设计方案,之后提出性能瓶颈,并进行了改进。C_STORE采用了负载均衡和恢复策略,具有良好的可扩展性和可靠性。它将数据与元数据分离管理,这使客户端对服务器的访问高效化,同时也使资源的管理方便化,既充分利用了资源,又减轻了服务端的压力。在客户端方面,我们分别实现了基于不同平台的客户端软件,如UNIX、ANDROID以及WIN平台下都有其可用的客户端。同时实现了用户认证模块,方便了用户登录以及用户存储配额的分配,保证了用户账户的安全。数据存储模块主要为用户提供良好的数据存储功能,为了保证用户数据的可用性,它采取了冗余策略,将每份数据进行备份;恢复机制保证了数据的可靠性;采用逻辑时钟来保证数据的一致性。模块在副本之间采用了心跳连接推送分片数据的备份副本,一旦出现热点机器,迁移机制和扩容机制保证了模块间数据的负载均衡。本文最后将给出模块基本功能测试与针对大小文件的基本性能测试,并给出性能优化之后的机器各项硬件参数消耗指标,证明系统真实可用。