论文部分内容阅读
随着文件系统规模不断扩大,存储管理问题日益突出。元数据查询是管理员监视和了解文件系统的主要手段,在空间分配、资费统计、容量规划、故障诊断、层间数据迁移等存储管理任务中扮演着重要角色。本文针对以存储管理为目的元数据查询的两个主要挑战,元数据快速抓取及同步和长扫描查询的I/O瓶颈问题,在改进元数据抓取效率、缓解长扫描查询I/O瓶颈、改进元数据副本组织方式以及提高查询性能等方面,开展了研究工作。本文的主要工作如下:(1)在分析了两个企业级文件系统负载日志基础的上,发现了有助于元数据查询系统设计优化的若干元数据静态和动态特征。(2)提出了基于选择性扫描的元数据快速抓取和同步方法,利用元数据查询能容忍一定的时新性损失的特点,较好地解决了元数据抓取和同步的效率问题。实验表明,与传统的全扫描相比,该方法可将典型文件系统的元数据抓取和同步效率提高约2个数量级。(3)提出了基于文件系统注入的元数据变化跟踪方法,验证了采用文件系统注入方式跟踪其变化的可行性。实验表明,该方法可在不损失文件系统性能的情况下,将典型场景即时扫描方式收集目录统计信息的性能提升2~3数量级。(4)提出了针对文件标准属性的编码方式和压缩存储格式,有效地利用文件属性的近邻相似性和畸形分布特征,可将典型文件系统的副本元数据量压缩近2个数量级,具有比通用压缩方式更好的数据读取性能。提出了基于子森林的副本元数据划分方式和宽松深度优先并行扫描算法,有效地改善了长扫描查询性能,具有较好的可扩展性。(5)基于上述关键技术,设计并实现了一个元数据查询原型系统。与基于关系型数据库的解决方案相比,该系统可将实验选取的典型文件系统元数据的长扫描查询性能提升近1个数量级,且更具可扩展性。