论文部分内容阅读
当前,高性能计算机得到了空前发展,特别是机群结构的超级计算机已经占据了TOP500中半数以上的份额。同时,随着信息技术的发展,越来越多的信息以数字化形式保存,存储子系统已经成为计算机系统中最重要的部分。然而由于外部存储设备受到机械部件的制约,其数据传输性能的提高远远落后于CPU运算能力的提高,造成存储子系统成为整个计算环境的瓶颈。与采用机群结构的高性能计算机系统类似,存储子系统的机群化将为解决数据传输能力的落后面貌提供一个可行的方案。 受国家“八六三”计划重点支持的“蓝鲸”大规模网络存储系统致力于解决高性能计算环境中的存储子系统的瓶颈问题。它借助于高性能计算机网络,管理多个存储节点组成的存储机群,充分利用它们的存储空间和并发数据传输能力,实现高性能、低成本的海量存储。蓝鲸分布式文件系统(BWFS)是蓝鲸大规模网络存储系统的核心系统软件,它向用户提供单一映象的、全局共享的分布式文件系统服务。 本文结合BWFS的设计与实现,对其资源管理做了较深入的研究,提出了分布式分层资源管理模型,以及该模型在BWFS实现中的相关技术。主要研究成果如下: (1)BWFS的分布式分层资源管理模型(Distributed Layered Resource Management Model)。DLRM模型根据相对于资源的角色,将系统划分成多个功能独立的模块,实现分布部署:同时将它们划分成多个层次,有利于系统的实现与优化。DLRM模型确定了BWFS的“带外”数据传输架构,将负载和存储分担到多个节点组成的机群上,实现并发管理和并发数据传输,因此奠定了系统强大可扩展性,为系统实现负载平衡、在线迁移等提供了可能。 (2)高效的物理存储空间管理。DLRM模型将海量存储空间统一编址,然后划分成多个独立的资源组,并发管理各个资源组的存储空间,提高系统的性能与可扩展性。资源组采用的数据块/索引节点的动态分配、带统计信息的动态位图等技术使得BWFS具有高效率的空间管理能力。 (3)全动态元数据绑定技术。BWFS的活跃元数据采用全动态任意绑定技术,可以实现动态负载平衡,提高系统的性能和可扩展性。 (4)文件系统的资源管理优化。元数据服务器管理BWFS的元数据,实现资源批量申请/异步释放、分片存储(striping)、按策略的资源分配、分布式日志等技术。 (5)针对BWFS的性能测试、分析与对比。通过这些测试,验证了DLRM模型以及以上技术的有效性,对比分析显示BWFS在多方面的性能较NFS有显著提高;同时,也发现了系统的一些弱点,对以后进一步优化有参加价值和借鉴意义。