论文部分内容阅读
随着Internet技术的不断发展,网络上的数据迅速增长,无论是在生物医学、核能等科学研究和工程领域,还是在电子商务、金融等信息服务领域,高性能大容量的大规模网络存储系统已经成为目前数据存储的主要方式。大规模网络存储系统中的海量数据管理已经成为很多领域的挑战性问题,关于数据布局策略的研究在海量数据管理中尤为重要。如何将PetaByte级的数据分布到大量的存储设备上是当前大规模网络存储系统面临的很大难题。设计一种适合大规模网络存储环境下的数据布局策略是解决问题的关键。为满足当前大规模网络存储系统对扩充容量、提高数据访问速度和保证数据安全的要求,本文分析和比较了现有大规模网络存储系统中数据布局策略和当前对数据布局策略的研究成果,并结合半正定规划算法和动态区间映射算法两种方法,提出了一种“层次化”的数据布局策略。该策略将大量存储设备划分为数量较少的设备集合;半正定规划算法可以解决带有不同数量副本的文件的放置问题,将文件的不同副本放在不同的设备集合上,保证文件的存储局部性和数据可靠性;动态区间映射算法解决了文件分片后的放置问题,将文件条放在设备集合内的不同存储设备上,保证系统具有较好的自适应性。Lustre模拟器是大规模系统性能评估的重要平台,在上面支持上万个用户对上千个节点的访问。本文在Lustre模拟器上,实现了“层次化”数据布局策略,对比Lustre模拟器的数据布局策略,进行存储访问测试和性能分析。理论分析和实验表明,本文提出的“层次化”数据布局策略可以保证在大规模网络存储系统中数据的可靠性、对数据的高速访问和系统的自适应性。