重复数据删除技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:panxihuanhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云存储正在因为它的可扩展性、方便性和低成本等诸多优点而变得越来越流行。它通过租用基本设施来提供对于文件的服务,包括允许用户在服务器上存储文件,同步位于服务器和用户不同设备上的文件等。在这种场景下,提供服务的物理存储设备往往是高度集中的。因为集中式存储通常存在大量的重复数据,重复数据删除技术,或者叫做重复数据检测技术,正在变得愈发的重要。传统的重复数据删除技术只是强调他们在降低存储空间方面性能,然而作为一个远程的存储系统,网络的开销也不应该被忽略,特别是当系统是跨越广域网来部署的。我们提出了一种新的重复数据删除算法,它不但修改了对数据索引的方法,并且拥有新的重复数据块匹配的方法。为了检测新算法的效果,我们实现了一个叫做DDSN的网络文件系统的原型。我们的新方法在节省存储空间上可以达到滑动分块方法,也就是目前在节省存储空间上最优的方法,所能达到的效果。与此同时,我们的方法克服了滑动分块方法需要通过网络传输整个文件的缺点,DDSN可以对于重复数据节省大量的网络带宽。另外,针对固定长度的数据块的组织,我们提出了一种新的文件结构。除此之外,当有文件在一处被更新的时候,最简单的文件同步方法需要把整个被修改的文件传输到其他所有位置(服务器、用户的其他设备)来替换老版本的文件,这会导致网络带宽的大量浪费和更新文件时极大的延迟。我们提出了种名为HadoopRsync的算法来增量地更新文件而不是传输整个文件。新算法是基于被设计用来在两个机器之间同步文件的Rsync算法,但是不同的是,新算法适用到在云存储环境下。在这种环境下,文件是被分块地存储在云中不同的节点的情况下,因此我们提出了HadoopRsync Upload和HadoopRsync Download这一对算法来分别负责用户的设备和服务器间双向的同步文件。HadoopRsync只传输新版本文件与老版本文件之间的区别,而不是传输整个文件。我们的算法是运行在开源的分布式处理大数据平台Hadoop上的,新方法利用了Hadoop所提供并行计算模型MapReduce的能力。除此之外,我们还提出了一些优化来降低文件更新时I/0操作。最后,大量的实验证明了HadoopRsync所带来的好处。
其他文献
顺应三网融合快速发展,酒店原客房电视系统已经发生质的变化,从“看”电视,转变成“用”电视,目前成为新一代智能电视系统的标准功能,它为酒店提供数字化、智能化及个性化服务带来
随着汽车电子在汽车工业的应用逐渐深入,以汽车电子为基础的车载信息娱乐系统(IVI)已成为现代汽车不可或缺的组成部分。然而现有的各类IVI却存在着诸多不足:系统封闭、代码闭
随着Web服务技术的发展,越来越多的浏览器/服务器(Browser/Server,B/S)结构和客户机/服务器(Client/Server,C/S)结构的应用系统被用于政府信息化建设、信息系统和商业流程中,但是这两
随着我国高等教育事业的发展,高校毕业生数量逐年增长,高校毕业生的就业问题已经引起社会及相关学者的广泛关注。如何通过科学合理的方法为毕业生提供就业指导和帮助,提高毕
支持向量机(Support Vector Machines,SVM)是基于统计学习理论,建立在结构风险最小化原理和VC维理论基础上的一种机器学习方法。近几十年来以其优秀的分类能力在很多领域得到
伴随互联网信息资源规模的迅猛增长,用户要在海量信息空间中获得符合自己需求的信息也越发困难。推荐系统作为一种智能个性化信息服务系统,为用户推荐用户感兴趣的信息资源。推
蒙古族历史与文化源远流长,蒙古族的语言文字是蒙古族社会交际的工具。在当今信息化、全球化大背景下,蒙古语言文字的信息化对促进蒙古语言文字的学习、使用、研究和发展具有重
尽管工作流技术在软件开发活动中已经得到广泛运用,但是随着软件规模的扩大和软件需求的变更,工作流模型的柔性不足问题依然存在。为此,本文将构件技术与工作流技术相结合,提
随着国民经济的发展,各行各业对电力的需求不断扩大,如何提早预防、及时发现危害输电线路的自然灾害和意外事故,成为保障电力供应的一项重要基础工作。输电线路图像识别与自动报警系统采用图像技术对输电线路进行监控、分析和处理,能够对输电线路周围危害安全运行的目标进行自动识别与报警,为电力企业的科学决策提供依据,提升对自然灾害和意外事故的应对效率。本文首先论述了开发输电线路图像监控与自动报警系统的必要性,然后
随着传感器网络的研究和应用日益成熟,人类生活必将逐渐依赖于传感器网络,人类社会的发展也将离不开传感器网络。而覆盖问题就是无线传感器网络设计和规划需要面临的一个基本问