论文部分内容阅读
针对现有的Sparse Indexing方法不能有效处理小文件备份负载的问题,提出了一种以Broder扩展定理为理论依据的最小特征采样算法,该算法可以对不同形式的备份负载进行有效的特征采样。在此算法的基础上,设计了一种多负载重复数据消除方法,该方法通过对备份负载进行特征采样,仅在内存中维护完整索引的一个很小的子集,并通过批量读入分块标识符,摊销了磁盘访问开销,提高了吞吐量。实验结果表明,该方法对混合备份负载的压缩比是Sparse Indexing的2.04倍,而吞吐量与Sparse Indexing相当。