基于冗余数据消除的备份系统性能优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:michel_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息的爆炸式增长,作为冗余数据消除的重要手段,数据去重和差量压缩技术受到越来越多的关注。数据去重可以消除重复的数据块,而差量压缩可以消除不重复但相似的数据块间的冗余数据。将这两种技术应用于备份系统可以有效地减少冗余数据,但是也会降低系统的备份和恢复性能。对于仅使用数据去重的备份系统来说,现有的基于内容的分块算法开销过大,使分块环节成为了备份时的性能瓶颈。数据去重和差量压缩在效果上可以互补,因此可以将两种技术联合起来应用于备份系统以尽量减少冗余数据。然而,在联合数据去重和差量压缩技术的备份系统中,差量压缩对系统的备份和恢复性能的影响都未讨论过。  在使用数据去重的备份系统中,针对基于内容的分块算法存在的计算开销过大导致的性能瓶颈问题,提出了在非对称区域内寻找极值来做切点判断的非哈希分块算法AE,来移除分块环节的性能瓶颈。典型的Rabin分块算法需要较大计算开销来计算Rabin指纹,MAXP算法需要复杂的回溯处理,因此都面临吞吐量过低的问题。在MAXP的基础上,AE在非对称区域内寻找极值点,避免了回溯处理。此外,现有的分块算法块长方差过大且不能对低熵字符串进行去重,而AE的块长方差小,且可以对低熵字符串进行去重,因此可以获得更高的去重率。实验测试表明,AE算法的吞吐量是传统的基于内容的分块算法的3-5倍,可以移除备份时分块环节的性能瓶颈,将系统吞吐量提高50%以上,并且获得与之相当或更高的去重率。  在联合数据去重和差量压缩技术的备份系统中,针对现有的相似性检测算法的计算开销过大导致的性能瓶颈问题,提出了基于局部性的快速相似性检测方法SIRD,来移除相似性检测环节的性能瓶颈。相似性检测环节的计算开销与单个区域内需要提取的特征值个数成正比。备份系统中最常用的相似性检测算法是超级特征值法(Super-feature),该方法将整个数据块视为单个区域并从中提取出多个特征值,因此需要较大的计算开销。分析发现,备份数据集中的相似数据块存在局部性。为了挖掘该局部性,SIRD将数据块划分成多个子区域,并对单个子区域只提取一个特征值来减少计算开销。为了提高相似性检测的准确度,匹配时SIRD将多个子区域的特征值联合起来匹配来查看数据块内是否多个对应子区域都相似。实验测试表明,SIRD可以移除相似性检索环节的性能瓶颈并提高系统吞吐量1.42-3.2倍。  在联合数据去重和差量压缩技术的备份系统中,针对引用块碎片化所导致的恢复性能降低的问题,提出了利用局部性来选择性进行差量压缩的方法SDC,来避免引用块的碎片化并提高系统的恢复性能。引用块的碎片化产生的原因无选择性地进行差量压缩导致引用块的位置分散,从而在恢复时需要大量的读操作来读取引用块。引用块碎片化严重影响恢复性能且无法被现有的重写算法解决。分析发现对引用块存在局部性的数据块进行差量压缩可以避免引用块碎片化。为了判断引用块的局部性,SDC在备份时模拟一个恢复缓存,并仅对引用块存在于模拟的恢复缓存中(即引用块局部性强)的数据块进行差量压缩,来避免引用块的碎片化。实验测试表明,与直接在数据去重后做差量压缩相比,SDC可以提升恢复性能1.93-7.48倍,而压缩率的损失仅为2.6%~4.5%。
其他文献
本论文结合美国最大的线上高尔夫用品销售公司——BlueTeeGolf公司的工程实际课题,以目前国外电子商务系统的设计和开发工作为主线,比较深入详细地探讨了现阶段国外电子商务
自本世纪70 年代兴起与相对论、量子力学相提并论的混沌理论研究开展以来,混沌学成为一门影响深远、发展迅速的前沿科学。在通信、控制、化学、生命科学、流体力学等领域,混沌都有广泛的应用。混沌信号的高度初始敏感性、对噪声的免疫力等突出特性极适合于测量。本文介绍了混沌的研究现状、起源、概念、研究的主要内容、发展史等。通过引入Duffing 方程,发现其对驱动力幅值的敏感性。通过对幅值的调节,系统可以发生状
随着Internet的迅猛发展,基于Internet的应用系统的逐渐增多,构件的交互范围已经进一步扩大并分布在整个Internet上。我们要把整个复用环境放到大的广域网甚至Internet上。现有
本文对数据仓库技术和数据挖掘算法进行了研究,并对数据挖掘算法根据实际需要作了改进:  (1)对聚类中的孤立点算法进行了分析,给出了算法描述,并就算法的复杂度进行了分析。 
  本论文利用FPGA可编程逻辑器件和硬件描述语言Verilog,采用自顶向下的设计方法,开发了一款基于PCI总线的高速数据采集卡。本数据采集系统中,采用PLX公司生产的PLX9080作为PC
随着互联网用户和流量的爆炸性增长,网络资源不足及网络拥塞问题日益严重,而各种新的多媒体业务的出现又对网络的服务质量提出了新的要求。流量工程就是为了解决这些问题而提
目前,数据挖掘作为一种发现大量数据中潜在信息的数据分析方法和技术,己经成为各界关注的热点。电力企业信息化建设积累了大量历史数据,迫切需要利用数据挖掘技术研发分析决
随着计算机技术和无线网络技术的进一步发展,移动办公等移动计算环境下的应用需求日益强烈,同时,应用需要处理的数据量和复杂度也不断增加,这使得许多应用需要嵌入式的移动数
网格计算是一种新的高性能分布式计算方法。随着web技术的发展与影响,开放网格服务体系结构OGSA被提出,从此网格计算以网格服务的形式呈现出来。随后开放网格服务基础设施OGS
本文运用计算机和人工智能技术的相关理论和方法解决该领域中的声音定位效果问题,选题具有重要的理论意义和实用价值。 首先,介绍虚拟声音技术理论和发展概况,分析相关领域的