面向冷数据存储的分布式编码技术研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:weiguoliaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自互联网诞生以来,尤其是最近几年移动互联网、物联网和云计算的发展,催生了网络数据的指数级增长。这给存储系统造成了极大的压力。为保证数据的可靠性,存储系统通常采用多副本的方式进行存储,造成了大量的数据冗余。使用纠删码做数据容错可以有效降低数据冗余,但是数据可用性会有一定程度的降低。这就造成了某种程度上的矛盾。对存储系统内部的数据按照使用频度进行分类,划分为冷数据和热数据,然后对冷数据通过纠删码的方式进行存储。这在保证了数据可用性的同时,极大的降低了系统的数据冗余。系统设计上,将数据节点按照存储空间和计算能力,划分为多个虚拟节点,然后将虚拟节点通过一致性哈希分散到一个哈希环上,构造一个全对称、去中心的哈希环,以此达到数据分布和任务调度的均匀。编码、解码过程中,通过使用Bit-Matrix技术,降低了编码矩阵中1的个数,有效的减少了编码、解码过程中的XOR运算次数。同时,解码队列技术的引进,通过对编码、解码过程中的执行步骤进行有效的规划,尤其是解码过程中后续解码操作对之前计算数据的有效利用,有效的降低了计算复杂度,加快了编码、解码速度。实现上述设计并使用IO测试工具测试。测试结果表明,通过引入纠删码机制,相对于传统的副本机制,顺序写入速度得到了极大提高。4:2结构的纠删码,相对于传统的3副本策略,存储效率提升了100%,存储块为1024k时,顺序写入速度提高了106%。当然,在存储块较小时,写入速度提高有限,例如存储块大小为4k时,顺序写速度仅提高了6.5%。
其他文献
随着计算机科学的不断发展,信息数据量呈爆炸性增长,给数据处理工作带来了一定的挑战,用户的查询也变的越来越复杂。由于需要处理的数据规模越来越大,进行的搜索也越来越困难
时空数据管理是时态数据管理和空间数据管理的统一体,包括时间与空间两个要素,主要用于管理和储存位置或形状随时间变化的空间对象。时空数据管理可以应用于环境变迁研究、行
如今,随着人们生活水平的提高,人们对高品位和个性化的追求也越来越强烈,量脚定制正顺应了“个性化定制”这一发展趋势。脚型的获取是量脚定制的基础,本文基于计算机视觉的多视点
在图像文本检测时,需要高效可靠的方法从图像中学习表征性强的文本特征。在无参考图像质量评价中,准确的质量评估也依赖关键质量特征的提取。在这两个应用中,有效自动地提取可视
近年来,随着科技的发展,与位置服务有关的定位技术、导航技术、监控技术已经广泛走进现实生活。如今,手机、车载设备等电子产品提供位置服务相关功能越来越普遍。这些应用的
大幅面扫描仪的市场前景广阔,主要应用在工程图纸输入及处理、地理信息系统、艺术品复制以及制版行业。目前行业用户对大幅面扫描仪图像精度和扫描速度的要求不断提高,使得新一
边框纹样是我们身边最常见的纹样之一,早在中国历代传统图案纹样中就已出现,这些纹样被人们广泛应用于日用器皿、青铜器、礼器、雕刻品、漆器等工艺美术作品中,既有实用价值
随着信息化的发展,业务流程软件越来越受到企业的重视。企业使用流程的原因,一、可以协同各个岗位的工作,并能监控业务流程;二是协助多任务、多角色、多协作应用系统的开发。但在
网络是当代信息社会的重要基础设施,也是一个具有相当复杂性的系统。对网络的运行的管理,无论从社会、商业和技术的角度来看都愈益重要和迫切。网络测试是对网络进行监控、管理
Hadoop分布式文件系统(HDFS)是一个被广泛应用的分布式文件系统,它基于传统TCP/IP网络,由于传统网络的局限性,HDFS只能掌握节点的运行状况,比如节点的磁盘I/O,CPU和内存资源信息以及