论文部分内容阅读
随着数字化时代的到来,在人们的日常生活和科学研究中,越来越多的传统业务开始数字化、网络化,促使数据爆炸式地增长,海量数据存储的需求越来越迫切。
源源不断的数据流导致海量存储系统产生严重的I/O瓶颈问题。要改善海量存储系统性能以消除I/O瓶颈,首先得研究海量存储系统I/O负载数据规律,以便进行有针对性的存储系统性能优化,从而为设计海量存储系统提供依据。
收集了14组典型海量存储系统上的I/O trace数据,分别属于HP 实验室、加州大学伯克利分校、洛斯阿拉莫斯国家试验室和劳伦斯国家实验室等机构,并以华中科技大学计算机学院网站服务器为平台收集了49天的I/O trace数据。采用统计方法,对不同层级、不同应用环境下I/O 负载中访问模式和到达模式的各种指标(如I/O 大小、带宽以及队长等)进行了经验分布研究。
深入理解I/O 到达行为,需要对I/O 负载中的到达间隔相关性进行研究,以选取合适的负载模型,来描述存储负载中的I/O突发行为。采用自相关函数研究了不同时期内磁盘I/O和文件I/O 负载中到达间隔的相关性,研究结果表明:一方面,有的负载(如tpc-d等磁盘I/O)中的I/O 到达间隔几乎没有相关性,这类负载中的I/O 到达过程是独立同分布的;另一方面,有的负载(如openmail等文件I/O)中的I/O 到达间隔时间具有一定程度的相关性,有必要考察该负载的自相似性。同时,对几组典型的并行I/O 负载到达间隔时间的相关性研究结果表明,马尔可夫方法并不适合用来模拟科学应用中所有节点上的I/O 到达:通过对科学应用负载ior2、f1和m1 进行分析,发现部分节点上I/O 负载的到达间隔时间几乎没有相关性,相应的I/O 到达过程是独立同分布的;但是在有的应用节点上,负载的I/O 到达间隔时间具有一定程度的相关性,很有必要研究这类负载中的自相似性。
针对具有相关性的I/O负载(如cello、ior2、web等),研究了在不同层级、不同应用环境下的I/O负载所具有的自相似性,特别是研究了并行I/O负载ior2、f1和m1的自相似性。发现ior2中的写负载在不同程度上具有自相似性,其自相似程度按ior2-fileproc、ior2-shared、ior2-stride的顺序依次递减。和写相比,ior2中的读负载呈现出较弱的自相似性,其中ior2-stride的样本读负载不具有自相似性,这与相应的自相关研究结果一致。对于ior2或f1在各个节点上的样本写负载,其自相似程度彼此相近,但m1在各个节点上样本写负载的自相似程度有较大起伏,缺乏一致性。对于ior2-fileproc、ior2-shared和f1-restart这三个应用,每个应用在各个节点上的样本读负载的自相似水平接近,但各个应用负载之间的自相似程度迥异。这些差异给各个应用节点上的负载合成工作带来了严峻挑战。
I/O负载特征研究,能为I/O负载所属类型的甄别提供依据,并为选取合适的负载模型、合成具有代表性的I/O访问序列创造条件。对多组典型自相似I/O负载的研究结果表明,有的自相似负载具有高斯性,有的自相似负载则体现出非高斯性。针对研究界还没有一种I/O负载模型可以同时在高斯和非高斯条件下精确刻画自相似负载中的I/O访问行为这一现状,通过研究,提出了一种基于alpha稳定过程的I/O负载合成方法,能够在不同应用环境下精确合成各种负载:不仅能精确合成I/O到达独立同分布情况下的I/O负载,还能很好的合成自相似I/O负载,并能令人信服地合成并行I/O访问序列。与传统负载模型相比,alpha稳定I/O负载模型既可以在高斯条件下刻画负载中的I/O突发性和重尾分布,也可以在非高斯条件下刻画负载中的I/O突发性和重尾分布。
采用alpha稳定I/O负载模型、独立同分布型的正态模型和泊松模型、自相似型的FBM模型和FARIMA模型分别对HUST web负载中的I/O访问序列进行合成,并将合成结果与样本trace数据进行对比。发现alpha稳定合成序列、正态合成序列分别与样本trac序列一致。Alpha稳定合成序列与样本一致是由于alpha稳定I/O负载模型的普遍适用性。正态合成序列与样本一致是因为HUST web负载中的I/O到达间隔时间仅具有弱相关性,I/O到达过程趋向于独立同分布,能被独立同分布型的正态模型精确刻画。
但误差分析结果显示,由alpha稳定I/O负载模型合成的I/O访问序列比其它方法更能令人信服地捕捉I/O突发到达行为。