论文部分内容阅读
云存储作为一种新兴的存储模式,以其低成本、高可靠、弹性和按需付费的特点,吸引了越来越多的企业和用户将数据放在云端。如何降低云存储中海量数据的存储开销成为一个重要的问题。在云存储中,数据之间可能存在依赖关系。例如,由于客户端分辨率和带宽等因素的差异,视频网站通常会将原视频文件按不同码率转码生成清晰度不同的视频文件。此时,原文件和转码后的文件之间就存在依赖关系。目前,基于数据依赖关系降低数据存储开销的方案是:通过算法决策数据是否需要存储。对于不存储的数据,当其收到访问请求时,先利用依赖关系生成数据,再提供访问服务。此时,系统的整体开销包含存储数据产生的存储开销和生成数据产生的计算开销。由于不存储的数据通常访问频率较低,因此其计算开销小于存储开销,使得系统的整体开销小于以往存储所有数据的存储开销。然而,现有方案在存储数据时,使用固定的多副本存储策略,没有进一步考虑数据存储策略可变的情况。也没有考虑当数据生成时间超出用户允许的响应延迟时间时,数据不可用的问题。针对现有研究的不足,论文提出了基于数据依赖关系的云存储优化算法。在保证数据可用性指标的前提下进一步降低系统整体开销。具体工作和创新点包括以下四个方面:(1)提出了一种基于数据依赖关系的低冗余数据存储模型(Data Dependency based Storage Model with Reduced Redundancy,D2SMR2)。与现有研究不同,该模型中数据的存储策略可变,降低了数据副本的冗余度,提出了新的数据整体开销计算模型,提出了数据可用性的约束条件。(2)提出了D2SMR2中数据可用性和数据生成时间的计算方式。与现有研究不同,D2SMR2中数据可用性考虑了用户允许的响应延迟时间和数据存放节点两个因素的影响。此外,在D2SMR2中数据的生成时间是一个随机变量,与数据直接或者间接依赖的数据故障状态有关。(3)提出了降低系统整体开销的数据存储策略决策算法。算法对新数据直接决策数据的存储策略,并在每个时间周期T结束时,根据周期T内数据的访问记录,更新依赖关系图中数据的存储策略。(4)搭建了基于数据依赖关系的云存储仿真系统,并将现有算法和本文提出算法进行仿真实验对比。相比以往仿真环境,系统能够记录数据的依赖关系,模拟节点故障、故障恢复、请求排队和数据生成等。基于该仿真系统,论文在随机生成依赖关系的数据和真实数据上分别进行仿真对比实验,验证和评估了论文提出的模型和算法。