【摘 要】
:
重复数据删除系统中面临着严重降低其性能的重复数据查询硬盘瓶颈。基于相似性的方案利用文件的相似性归类文件只在相似文件集中查找重复数据,减少数据块查找的硬盘访问至每个
论文部分内容阅读
重复数据删除系统中面临着严重降低其性能的重复数据查询硬盘瓶颈。基于相似性的方案利用文件的相似性归类文件只在相似文件集中查找重复数据,减少数据块查找的硬盘访问至每个文件一次。它具有内存占用小、吞吐率高等优点,能较好地减轻硬盘瓶颈,但仍然存在着如下的一些缺陷:它无法灵活应对过多的小文件和过大的大文件;小文件较多时硬盘访问的开销仍然过大;在不同相似集中存在着大量未能检测的重复数据。这些缺陷限制了它的性能与使用。为了进一步减轻硬盘查找瓶颈、提高重复数据删除效率,结合局部性原理在基于相似性的重复数据删除技术Extreme Binning的基础上提出了一种“聚合Binning”技术。该技术对相似性重复数据删除技术进行了如下改进:分拆大文件,合并小文件,将文件划分为大小均衡的数据段;使用灵活的可定制的策略对不同相似集进行聚合;设计局部性聚合哈希矩阵缓存最近访问的多个聚合相似集,并在局部性聚合哈希矩阵中查找检测重复数据。在不同现实备份数据流下的实验评估和对比表明,聚合Binning技术性能超过当前流行的基于局部性的DDFS重复数据删除技术和基于相似性的Extreme Binning重复数据删除技术,具有高吞吐率、低内存使用、近似精确的重复数据删除率等特点,适合应用于大规模可扩展网络备份系统中。
其他文献
随着计算机网络的发展,网络协议的重要性日渐突出。协议是通信各方能够正确互联的保证,是各个通信实体间需要遵守的一系列规则。然而,多数协议的文档都是通过自然语言进行书
目前主流的虚拟化技术厂商都实现了虚拟机监控器的内存页共享功能,虚拟机之间内容相同的多个内存页只占用一份实际的机器内存页,这一技术能够降低单个物理机的内存消耗。但是
近几年,由Facebook和Twitter所引领的社交类网站迅速发展,已渗入普通网民的日常生活。社交网络以“六度分离”理论为基础,使得人们能够在除现实世界外不断拓展自己的朋友圈子。
全文检索技术不仅可以实现情报检索的绝大部分功能,而且还能直接根据数据资料的内容进行检索。当今以全文检索为核心技术的搜索引擎已成为网络时代的主流技术之一。全文检索的
近年来机器翻译研究进展显著,但译文的质量仍存在很大的改善空间。如何在统计机器翻译模型中有效融合深层语义知识,如时态、语态信息等进行翻译,是研究热点之一。日语属于黏
图形处理器GPU善于处理大规模密集型数据和并行数据,通用并行架构CUDA让GPU在通用计算领域越来越普及。由于GPU集群的高性价比,高性能计算领域中GPU集群的使用越来越普遍,但GPU
作为云计算的核心基础设施,数据中心网络是一个连接了数万级、十万级甚至百万级的大规模服务器群来进行大型分布式计算的桥梁,因此更成为了互联网研究热点中的热点。随着网络
人脸识别是一个融合了数字图像处理,计算机图形学,特征提取,模式识别等多门技术的学科。由于人脸识别技术只需要用户的少量配合,具有非接触性的优点,已广泛使用在国家安全,银
Web技术的进步,使得社会网络(比如facebook(facebook.com)、 twitter(Twitter. com)、myspace(myspace.com)、hi5(hi5.com)等)得到了快速的发展,社会网络的快速发展也给人们
研究了二维矩形packing这一类NP难度问题。在黄文奇等人提出的拟人型穴度算法的基础之上,提出了基于动作空间的拟人型穴度算法,通过定义动作空间来简化对不同放入动作的评价,使