论文部分内容阅读
归档存储系统中元数据操作占所有操作的50%~80%,高性能的元数据管理策略对归档存储系统的性能非常重要。但常用的基于目录子树分区和哈希的元数据管理算法不能适应和利用归档存储系统的特性,存在管理元数据所需的时间与空间开销大、适应能力弱和易出现性能瓶颈等问题。
本文从元数据管理系统的结构、分布策略、索引算法和快速调整策略等方面,研究新型的归档存储系统管理机制,具体工作如下:
(1)在分析归档存储系统特性和元数据管理要求的基础上,设计了新型元数据管理系统的结构,为提高管理元数据的性能奠定了基础。
(2)针对管理海量元数据所需大量时间与空间开销的问题,依据归档存储系统中数据的保密期特性划分元数据,缩小查询元数据所需的搜索范围,减少时间开销。针对元数据中不同属性使用频率的不同,依据属性使用频率对非保密元数据的属性进行分区,将元数据的属性分布到不同的元数据服务器中,提高了使用属性查询元数据时的性能。
(3)为了解决快速确定解密元数据所在分区的问题,使用人工免疫算法生成每个分区的标识集,为快速确定分区奠定了基础;设计了快速分区策略,保证确定刚解密元数据存放分区所需的时间和空间开销较小且稳定。实现了算法的原型系统,使用真实数据集进行测试与比较。
(4)针对元数据各属性被用于查询元数据时使用频率的不同,将元数据属性分为高频属性和低频属性,设计了元数据属性的混合索引算法;依据刚解密优先的原则,改进KD-tree建立索引,满足使用多个或单个高频属性查找元数据的要求;使用人工免疫算法建立低频属性的索引,在保持较高元数据查找性能的同时,避免建立与维护索引所需的额外时间与空间开销。实现了算法的原型系统,使用两个真实数据集进行测试与比较。
(5)针对保存相同数据的多个元数据服务器之间负载分布不均衡的问题,使用哈希后置表快速调整元数据访问请求的分布,避免出现热点元数据服务器,降低调整元数据服务器集群所需的时间与空间开销。
最终构成了基于属性的元数据管理机制的原型系统,使用Lawrence Livermore国家实验室的数据集和收集Linux系统元数据进行测试与分析,验证了基于属性的元数据管理机制能高效的管理归档存储系统中的元数据,具有较强的适应能力。