论文部分内容阅读
随着信息时代的来临,数据呈现爆炸式地增长,数据备份系统需要存储的备份数据越来越多,为了节省存储资源,重复数据删除技术作为一种无损数据压缩技术被广泛应用于数据备份系统中。重复数据删除技术的基本原理是删除重复的数据,对内容重复的数据单位只存储一份,以达到大幅度压缩数据量的目的。但是由于使用重复数据删除技术删除了重复数据,使得备份数据流中逻辑上连续的数据块在物理存储空间上不连续,导致数据恢复时产生大量的磁盘随机读操作,严重降低了数据备份系统的恢复性能。这些在逻辑空间上连续但在物理存储空间上不连续的数据块被称为数据碎片。目前,学术界已出现了多种碎片解决方案,包括帽子算法(Capping)、基于上下文的重写算法(CBR)、历史感知的重写算法(HAR)和面向主存储系统的重删算法(iDedup)。它们解决数据碎片的主要思想是改变数据块在磁盘上的布局,通过重写适量的碎片数据,使大部分逻辑空间上连续的数据块在物理存储空间上也连续,从而减少系统中数据碎片的数量。以牺牲少量存储空间为代价,换取恢复性能的提升。然而通过理论分析和实验验证,我们发现现有的碎片解决方案不能精确的识别数据碎片。其中Capping、CBR和HAR方案,因为使用固定大小的容器作为碎片识别的基本单位,只关注容器中有效数据块的总量,不考虑每个有效数据块的具体存储地址,导致不能精确识别数据碎片,重写过多的数据,且恢复性能得不到有效的提升。而iDedup虽然使用了变长容器作为碎片识别的基本单位,解决了固定大小的容器存在的问题,但是它没有考虑对恢复性能起着很大作用的磁盘特性,i Dedup在数据恢复时一次读磁盘操作往往只能读取较少数据,使得该碎片解决方案也不能精确识别数据碎片。针对现有碎片解决方案存在的问题,我们提出了一种更加精确的碎片解决方案AEDefrag。该方案以大小可变的数据组为碎片识别单位,其基本思想是计算恢复或读取一个数据组时的有效数据传输带宽,若有效数据传输带宽低于用户所期望的带宽,则该数据组内的有效数据被认定为数据碎片,反之该数据组内的有效数据不是数据碎片。通过实验测试,AEDefrag比现有的碎片解决方案重删率提高了1%到9%,恢复性能比Capping提升高达102%,比CBR提升高达54%,比HAR提升高达175%,比iDedup提升高达263%。