海量存储系统I/O负载特征研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chensiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化时代的到来,在人们的日常生活和科学研究中,越来越多的传统业务开始数字化、网络化,促使数据爆炸式地增长,海量数据存储的需求越来越迫切。   源源不断的数据流导致海量存储系统产生严重的I/O瓶颈问题。要改善海量存储系统性能以消除I/O瓶颈,首先得研究海量存储系统I/O负载数据规律,以便进行有针对性的存储系统性能优化,从而为设计海量存储系统提供依据。   收集了14组典型海量存储系统上的I/O trace数据,分别属于HP 实验室、加州大学伯克利分校、洛斯阿拉莫斯国家试验室和劳伦斯国家实验室等机构,并以华中科技大学计算机学院网站服务器为平台收集了49天的I/O trace数据。采用统计方法,对不同层级、不同应用环境下I/O 负载中访问模式和到达模式的各种指标(如I/O 大小、带宽以及队长等)进行了经验分布研究。   深入理解I/O 到达行为,需要对I/O 负载中的到达间隔相关性进行研究,以选取合适的负载模型,来描述存储负载中的I/O突发行为。采用自相关函数研究了不同时期内磁盘I/O和文件I/O 负载中到达间隔的相关性,研究结果表明:一方面,有的负载(如tpc-d等磁盘I/O)中的I/O 到达间隔几乎没有相关性,这类负载中的I/O 到达过程是独立同分布的;另一方面,有的负载(如openmail等文件I/O)中的I/O 到达间隔时间具有一定程度的相关性,有必要考察该负载的自相似性。同时,对几组典型的并行I/O 负载到达间隔时间的相关性研究结果表明,马尔可夫方法并不适合用来模拟科学应用中所有节点上的I/O 到达:通过对科学应用负载ior2、f1和m1 进行分析,发现部分节点上I/O 负载的到达间隔时间几乎没有相关性,相应的I/O 到达过程是独立同分布的;但是在有的应用节点上,负载的I/O 到达间隔时间具有一定程度的相关性,很有必要研究这类负载中的自相似性。   针对具有相关性的I/O负载(如cello、ior2、web等),研究了在不同层级、不同应用环境下的I/O负载所具有的自相似性,特别是研究了并行I/O负载ior2、f1和m1的自相似性。发现ior2中的写负载在不同程度上具有自相似性,其自相似程度按ior2-fileproc、ior2-shared、ior2-stride的顺序依次递减。和写相比,ior2中的读负载呈现出较弱的自相似性,其中ior2-stride的样本读负载不具有自相似性,这与相应的自相关研究结果一致。对于ior2或f1在各个节点上的样本写负载,其自相似程度彼此相近,但m1在各个节点上样本写负载的自相似程度有较大起伏,缺乏一致性。对于ior2-fileproc、ior2-shared和f1-restart这三个应用,每个应用在各个节点上的样本读负载的自相似水平接近,但各个应用负载之间的自相似程度迥异。这些差异给各个应用节点上的负载合成工作带来了严峻挑战。   I/O负载特征研究,能为I/O负载所属类型的甄别提供依据,并为选取合适的负载模型、合成具有代表性的I/O访问序列创造条件。对多组典型自相似I/O负载的研究结果表明,有的自相似负载具有高斯性,有的自相似负载则体现出非高斯性。针对研究界还没有一种I/O负载模型可以同时在高斯和非高斯条件下精确刻画自相似负载中的I/O访问行为这一现状,通过研究,提出了一种基于alpha稳定过程的I/O负载合成方法,能够在不同应用环境下精确合成各种负载:不仅能精确合成I/O到达独立同分布情况下的I/O负载,还能很好的合成自相似I/O负载,并能令人信服地合成并行I/O访问序列。与传统负载模型相比,alpha稳定I/O负载模型既可以在高斯条件下刻画负载中的I/O突发性和重尾分布,也可以在非高斯条件下刻画负载中的I/O突发性和重尾分布。   采用alpha稳定I/O负载模型、独立同分布型的正态模型和泊松模型、自相似型的FBM模型和FARIMA模型分别对HUST web负载中的I/O访问序列进行合成,并将合成结果与样本trace数据进行对比。发现alpha稳定合成序列、正态合成序列分别与样本trac序列一致。Alpha稳定合成序列与样本一致是由于alpha稳定I/O负载模型的普遍适用性。正态合成序列与样本一致是因为HUST web负载中的I/O到达间隔时间仅具有弱相关性,I/O到达过程趋向于独立同分布,能被独立同分布型的正态模型精确刻画。   但误差分析结果显示,由alpha稳定I/O负载模型合成的I/O访问序列比其它方法更能令人信服地捕捉I/O突发到达行为。
其他文献
远程实时监控软件是计算机取证中的一个重要组成部分,但在植入远程实时监控软件时往往会受到虚拟还原软件的干扰。因此,研究虚拟还原穿透技术对于计算机网络隐蔽取证具有重要
当今时代是一个信息时代,越来越多的企业实现了信息化管理,对一些大型企业或组织,有着大量的内部网语料,如何通过文本检索技术,自动挖掘出企业文本语料中的有用信息,受到了大
随着web信息的急剧增加,用户如何准确、快速有效地从海量web信息中提取所需信息,已成为当前急待解决的问题。搜索引擎技术是解决用户检索海量web信息的有效途径之一。目前搜索
计算机网络技术迅猛发展,开始深刻地改变着人们的生活方式。尤其是web2.0时代以来,社交网站和社交网络服务蓬勃发展,如国外的Facebook、LinkedIn,twitter,国内的各大主流微博客等
网络状况的复杂多变以及客户端设备的处理、显示能力各不相同,给视频编码技术带来极大的挑战,使得视频编码不仅需要具有良好的率失真性能,较好的视频图像质量及相对较低的计
光纤通道技术结合了远程网络技术和高速通道技术的优势,具有高带宽、高可靠性、低延时、低成本等特点,使其成为存储区域网的主要接口技术。利用片上可编程系统SoPC(System-on
时间序列是一组按时间顺序排列的数据集合,它广泛存在于商业、交通、工业等各个行业,对时间序列数据进行分析,可以揭示事物运动、变化和发展的内在规律,对于人们正确认识事物
近年来随着互联网迅猛发展和日益普及,网络已经成为人们获取信息的主要来源之一。然而互联网上的信息良莠不齐,不良信息的泛滥给人们尤其是未成年人的身心健康带来了极大的危
随着各种新型网络技术和应用需求的出现,传统网络结构面临着众多困难问题与挑战,主要体现在网络服务提供能力遭遇瓶颈上。其根本原因在于传统网络结构以强交互和强分层的方式
无线传感器网络是由大量低成本、低功耗、具备感知、数据处理、存储和无线通信能力的微型传感器节点通过自组织方式形成的网络。它可被应用到军事战场、环境监测、医疗、智能