论文部分内容阅读
信息化高度发展的今天,人们对数据的依赖越来越大,信息技术已经从以计算为中心转化为以数据为中心。2011年2月,IDC发布了最新的《企业级外部存储市场季度跟踪报告》,报告指出到2020年全球产生的信息总量将达到35ZB(1ZB=1000EB=100万PB=10亿TB),而2010年这一数字却仅为1.2ZB。数据的爆炸性增长,也引起业界和学术界越来越大的关注。爆炸性增长的数据中,充斥着大量重复的数据。重复数据删除技术便成为数据存储领域中一个重要的研究热点。根据数据集的不同,重复数据删除技术可以将存储压缩为原来的18~1500,被广泛应用于数据备份领域。云计算将虚拟化的资源通过互联网以服务的形式提供。其中IaaS服务层通过虚拟机向外提供服务,虚拟机配置和安装内容的区别导致虚拟机镜像数量庞大。本文在阅读国内外文献基础上,研究了重复数据删除的关键技术和镜像重删的特点。针对开源云平台Openstack镜像管理系统在镜像存储和镜像传输中的不足,设计并实现了基于在线重复数据删除技术的Openstack镜像管理系统。本文的主要工作总结如下:(1)研究了重复数据删技术和云计算。其中,对文件切块方式和内存指纹索引技术作了深入研究,主要关注两个问题:文件格式和切分方式的联系与内存指纹索引技术,其中包括稀疏矩阵索引和布隆过滤器。(2)设计并实现基于在线重复数据删除技术的Openstack镜像管理系统IM-Dedup system。该系统利用静态分块技术进行文件分成若干数据块,使用指纹预传输技术避免重复数据块的网络传输,在镜像存储端部署带重复数据删除功能的核心态文件系统以减少存储空间,使用内存过滤器减少磁盘索引次数,指纹存储区的集中可以提高数据读取的局部性,使用有限的内存占用率达到了较高的IO吞吐率。其创新点在于,提出了一种双重的在线重复数据删除方法,并且实现了双重在线重复数据删除镜像管理系统,不仅在镜像传输上使用了重复数据删除技术,在镜像存储环节也使用重复数据删除技术,达到存储使用量和带宽消耗同时减小的目的。(3)搭建实验平台,并对IM-dedup镜像管理系统进行实验评测。对其重复数据删除率,镜像上传时耗,镜像恢复时耗进行实验,并与原有系统进行对比。此外,本文参照亚马逊S3存储平台的计费模型,对IM-Dedup镜像管理系统的花销作定量分析,并与原有的镜像管理系统作对比,进一步显示了IM-Dedup镜像管理系统优越的经济性。(4)对在研究与开发IM-dedup镜像管理系统上所做的主要工作和贡献进行了总结,并提出了对IM-dedup镜像管理系统未来工作的几点展望。