跨数据中心分布式存储系统的数据复制技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：bosimao_wang

【摘要】

：

随着网络基础设施的普及，各种上网终端的流行以及Web2.0技术和社交网络的兴起，位于任何地方的用户都能很容易的获取和创造内容，因此一个应用程序的数据以及对这些数据的访问和更

【作者】

：

叶振

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2013年期

【关键词】

：

跨数据中心分布式存储系统数据复制技术副本选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络基础设施的普及，各种上网终端的流行以及Web2.0技术和社交网络的兴起，位于任何地方的用户都能很容易的获取和创造内容，因此一个应用程序的数据以及对这些数据的访问和更改往往来自不同地方甚至是全球的。为了让不同地区的用户能就近访问数据以减少用户请求的响应时间，这类跨地域的应用通常采用跨数据中心的分布式存储系统来保存数据。　　在跨数据中心的分布式系统中，数据中心间的消息传输延迟时间长，带宽小，网络不稳定，这些特点使该类系统的可用性，可靠性，可扩展性以及性能成为其面临的主要问题，而数据复制技术是解决跨数据中心分布式存储系统中出现的这些问题的有效手段。首先，数据复制技术能通过增加冗余的方式来提高系统的可用性和可靠性;其次，数据复制技术通过将数据副本放置在离用户较近处来降低请求的网络传输时间以提高性能;最后，通过增加热点数据的副本数目能分流读请求的负载，提高系统的扩展能力。因此，在跨数据中心的分布式存储系统中研究数据复制技术具有重要意义。　　数据复制技术无论在理论研究还是在实践中都是一个吸引人的研究课题，得到了大量的研究。数据复制在数据库领域和分布式系统领域是独自发展起来的，由于这两个领域各自不同的特点，它们采用数据复制技术的目的和方法也完全不同。如今的跨数据中心存储系统既要像数据库系统一样提供方便而强大的数据管理能力又要像分布式系统一样提供很强的可扩展性和透明的容错能力，因此对数据复制技术提出了更高的要求。　　在设计一个跨数据中心分布式存储系统的时候，如下方面和数据复制相关的问题需要得到解决:　　1)什么时候创建副本，每个数据创建多少个副本;　　2)将副本放置到什么地方;　　3)如何将用户请求转发给合适的副本进行处理。　　本文的主要研究内容围绕着以上三个方面展开，也即副本的创建，副本的放置以及副本的选择。　　副本创建:本文根据当前广泛采用的双层的跨数据中心拓扑结构，在考虑了一些政策限制的前提下，提出了一种动态副本创建策略TGstag。TGstag通过同时创建数据中心内部的副本和跨数据中心的副本这两种类型的副本来尽可能少的消耗数据中心间的网络带宽和降低用户访问延迟时间。在跨数据中心的副本创建中，TGstag首先考虑政策的限制，然后根据来自不同数据中心的请求数目以及数据中心间的不同网络延迟时间来考虑将数据创建到哪些数据中心中，以实现最少的跨数据中心副本访问以及最短的平均访问延迟时间。在数据中心内部，当一个副本所在的节点负载超过一定阈值的时候，TGstag会挑选出该节点上被访问次数最多的若干数据，然后在这个节点所在的数据中心选择一个负载最小且有足够容量的节点并将这些数据复制到选中的节点中，以提高系统的吞吐率。　　副本放置:本文提出了在跨数据中心场景下的新型副本放置算法GCplace。首先，GCplace使用网络坐标系统对数据中心和用户的位置进行建模，通过将用户和数据中心映射成网络坐标系统中的坐标的方式，将用户到数据中心的访问延迟时间问题转换成求网络坐标系统中两个不同坐标间的距离问题。在此基础上，GCplace通过两个步骤来决定如何放置数据副本。第一步，采用基于流的相似性聚类方法，用较少数量的微簇来代表数量庞大的用户，从而极大的减少计算量。第二步，用迭代式的算法计算出每个数据的副本应该对应的网络坐标，并选取离这些坐标最近的数据中心进行存放。通过这两个步骤，GCplace能以可接受的代价比较精确的计算出每个数据应该放置于哪些数据中心，从而最大化的降低用户平均访问延迟时间。　　副本选择:本文提出了一种动态可调的副本选择算法来保证基于Quorum的跨数据中心分布式存储系统在能获得一定比例最新数据的前提下尽可能的提高性能。在一个基于Quorum的跨数据中心存储系统中，每次请求需要同步访问的副本数目的不同对系统性能，可用性以及获取最新数据的概率会产生不同的影响。本文首先根据一定算法从多个常见读写请求到达分布模型中选择一个最匹配当前应用程序的分布模型来预测每次读请求与在它之前的最近写请求间的到达时间间隔。接着采用蒙特卡罗模型来模拟预测读写请求在不同数据中心副本间响应的先后顺序，然后通过这些预测的值来实时的判断为了达到一定的一致性级别此次读请求需要访问的最少副本数目。从而减少不必要的跨数据中心副本访问，降低应用程序的响应时间并且提高吞吐率。

其他文献

三维CAD模型数字水印技术研究

伴随着计算机及工业设计的迅猛发展，3D模型开始被大量的生成并广泛的使用。3D模型通常是由网格、NURBS或者体素进行表示。其中，网格模型因为其大量深入的研究而被广泛采用。然

学位

三维CAD模型数字水印技术混沌映射非均匀有理B样条结构实体模型边界表示

数据立方体增量式维护及查询方法研究

联机分析处理（On-Line Analytical Processing，简称OLAP）支持分析人员和决策者从多个角度对数据进行快速、一致、交互地访问，从而对数据更深入了解。OLAP聚合技术对事实数据进行

学位

数据仓库增量聚合技术多维查询联机分析处理元数据文件

基于大规模出租车轨迹的移动感知计算研究

移动感知计算是感知计算的热点，它是指借助移动感知设备，采集个体与群体的移动数据，分析个体、群体、区域与环境的活动与变化。它的主要特征是移动性，即感知伴随移动的发生，并且通

学位

移动感知计算候车时间预测社会事件分析区域功能识别大规模出租车轨迹

无线传感网络密钥管理方案的研究

无线传感器网络在民用和军事领域应用广泛，比如战场监视、环境监控、健康和交通管理等。其中许多应用都需要安全通信。然而，由于无线信号的不稳定性，节点缺少保护等原因，无线传感

学位

无线传感器网络密钥管理蜂窝模型哈希运算抗节点捕获能力

基于组合的网络服务构造模型及执行机制的研究与实现

学位

三个图修改问题的固定参数可解算法研究

本文针对三个NP-hard图修改问题设计固定参数可解算法。第一个问题是如何从一个简单的无向图中删除最少的结点,使得剩余的图中所有顶点的度都不大于3。在前人所给的时间复杂

学位

顶点删除搜索树固定参数可解

色彩和谐的多目标图像颜色传递

在信息技术日新月异的今天,计算机的应用越来越深入到我们口常生活的细节当中。人们越来越多的考虑将计算机技术应用到我们日常捕捉的图像中,获得理想的效果,同时提取我们想

学位

图像分割区域匹配色彩和谐图像处理颜色传递

基于CLUSTERING的对等网络搜索算法研究

为了解决传统搜索引擎系统面临的众多问题，计算机科研人员和学者提出在P2P网络系统之上构建搜索引擎，通过P2P对等网络把分散在各地的计算机用户联系起来，整合各地计算机的运算能

学位

信息检索CLUSTERING网络语义向量数据资源库拓扑结构

复杂室内场景三维点云分割方法的研究

随着三维激光扫描技术的迅速发展，三维点云数据在自主导航、逆向工程、工业检测等领域的应用越来越广泛。三维点云数据的分割和分类是三维点云数据处理中两个非常关键的技术。

学位

室内场景三维点云分割马尔可夫聚类特征提取聚类集成

浅析半定规划在组合优化中的应用

半定规划是线性规划的一种推广,是在满足约束“对称矩阵的仿射组合半正定”的条件下使线性函数极大(极小化)的问题,这个约束是非线性的,非光滑的,凸的[1][2][3][4]。半定规划

学位

半定规划组合优化顶点覆盖

跨数据中心分布式存储系统的数据复制技术研究

与本文相关的学术论文