键值数据库缓冲区管理与存储引擎优化技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tiankong20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,以及云计算,物联网,人工智能等技术的成熟,应用的数据规模呈现爆炸式增长,例如:电子商务,社交网络,网络游戏等。在数据规模增大的同时,对于数据的存取性能要求也越来越高。如何高效地处理海量数据是目前数据库系统面临的巨大挑战。传统的关系型数据库由于复杂的关系模型和强一致性等自身的局限性,已经无法满足互联网应用的需求。键值数据库具有接口简单、低延迟、高吞吐、可扩展性强等优点,被广泛地应用在各种互联网应用中,已经成为当前应对海量数据管理的重要手段。但是,现有的键值数据库系统读写性能还无法完全满足应用的需求。例如,在缓冲区管理中,键值数据库存在内存利用率低,无法适用混合内存等问题。在存储引擎方面,键值数据库系统由于大都基于LSM-tree结构,存在较为严重的写放大问题。本文围绕键值数据库的读写优化问题,针对键值数据库系统缓冲区管理和存储引擎两大问题开展研究,旨在通过对缓冲区管理和现有基于LSM-tree(Log-Structured Merge-tree)的存储引擎的设计和优化,大幅提升键值数据库系统的存取性能,为未来键值数据库技术的发展提供新的参考。总体而言,本论文的主要工作和贡献可以总结为以下几个方面:(1)研究和提出了一种多粒度的缓冲区管理方案MG-Buffer,提高了键值数据库缓冲区管理的效率。传统的缓冲区管理基于页面粒度,本论文提出了结合页面粒度和元组粒度的多粒度缓冲区管理策略MG-Buffer。该方法修改了页描述符等数据结构用来记录页面中元组的访问信息从而识别页面中的热数据和脏数据,并通过高效的迁移算法保证了缓冲区置换时热数据和脏数据不被换出。我们通过实验将MG-Buffer与多种已有的缓冲区管理方案进行了对比,结果表明MG-Buffer可以提升20%的缓冲区命中率同时缩短20%的运行时间。(2)研究和提出了一种自适应的缓冲区管理方案AMG-Buffer,使键值数据库缓冲区管理能够适应访问负载的动态变化,提高了缓冲区管理的自适应能力。我们通过实验发现,元组粒度的缓冲区管理和页面粒度的缓冲区管理存在着各自的优缺点,因此采用固定粒度的缓冲区管理策略无法适应访问负载的变化。因此,本论文在页面粒度和元组粒度的缓冲区管理基础上,提出了通过页面的聚集度(Clustering Rate)来动态地选择缓冲区管理粒度的方法,并据此设计了一个自适应的缓冲区管理策略AMG-Buffer。AMG-Buffer能够基于访问负载的变化动态调整内部的数据布局从而带来性能的提升。在多种负载上的实验结果表明了AMG-Buffer的高性能和自适应性。(3)研究和提出了一种针对DRAM+PM(Persistent Memory)混合内存的缓冲区管理方案HiBuffer,在保证缓冲区命中率的前提下减少了对PM的写操作,提升了键值数据库缓冲区管理的整体性能。考虑到混合内存架构的特点,本论文设计了新的缓冲区管理方案HiBuffer,它通过新的缓冲区结构以及基于DRAM的异位更新策略吸收写操作,从而减少持久性内存的写次数。同时,HiBuffer还提出了一种并发读取机制,缓解了同步操作造成的额外读I/O。我们构建了基于真实Intel傲腾PM的实验环境,并与多种已有策略进行了对比,实验结果表明了 HiBuffer的有效性。(4)研究和提出了一种针对LSM-tree引擎的块合并策略,并构建了一个新的键值数据库存储引擎BlockDB,有效地解决了 LSM-tree合并操作带来的写放大以及缓存失效问题,提升了基于LSM-tree的键值数据库存储引擎的性能。不同于传统基于SSTable文件的合并操作,本论文提出了一种新的基于数据块粒度的块合并(Block Compaction)方法。该方法通过复用数据块,有效地减少合并操作带来的写放大。此外,我们还提出了块合并的三种优化技术,即选择性合并(Selective Compaction)、并行合并(Parallel Merging)和延迟删除(Lazy Deletion)。最终,我们在LevelDB基础上实现了基于块合并策略的新型存储引擎BlockDB,并与多个已有的存储引擎进行了对比,包括LevelDB、RocksDB以及L2SM。实验结果表明BlockDB能够减少32%的写放大和缩短46%的运行时间,并且在点查询和范围查询方面均优于对比系统。
其他文献
相比于不可再生的化石能源,太阳能被认为是一种有吸引力的可再生能源。由于其环保和免费的特性,太阳能具有广阔的应用前景,且仅需0.1%的太阳辐射到达地球就可以满足人类社会的能源需求。然而,由于制造电池过程中的材料消耗,利用太阳能发电成本很高。因此,研究人员们探索了很多替代的材料和方法来降低成本。其中金属氧化物半导体具有成本低、数量多、稳定性好和易生产的优点,常被用于替代传统的用于太阳能转换的昂贵半导体
量子信息中发展最为成熟的研究方向非量子密钥分发莫属。而作为量子密钥分发的分支,连续变量的量子密钥分发也因其特有的优势而受到广泛关注。连续变量量子密钥分发因使用相干探测而非单光子探测所以能够使用经典光通信器件来实现。而相干探测中本振光的选择滤波作用,使得连续变量量子密钥分发相比离散变量的量子密钥分发更容易和经典光通信网络进行融合。基于高斯调制的相干态的连续变量量子密钥分发协议的安全性已经得到了比较完
量子非局域性理论和量子纠缠理论是量子力学中非常重要的理论,也是量子保密通信的基础理论。量子非局域性可以用于量子数据隐藏和量子秘密共享,而多体纠缠在量子密钥分发、量子隐形传态和量子纠错码中扮演着核心的角色。因此关于量子非局域性和多体纠缠的理论研究不仅对量子力学的发展添砖加瓦,同时也促进量子保密通信的发展。本文具体研究与量子非局域性相关的不可扩充乘积基和强量子非局域性,以及与多体纠缠相关的k-均匀态和
随着世界数字化进程的持续推进,以及计算机和三维数据采集仪器等设备的不断升级,大量的三维数字模型通过想象设计和真实物体重建两种方式中生产出来。然而,绝大部分三维几何模型需要进一步处理才能应用于下游产业。其中,将几何模型转化为多边形网格,即网格生成,对于科学研究、制造业、数字文化产业等领域是至关重要的一步。在网格生成技术中,初始生成网格的质量一般比较低,并不适用于后续应用。为了适应与不同应用的需求,往
话者转换是一种语音生成技术,其目的是在保留文本内容的情况下,改变输入源话者语音的音色,使其听感接近目标话者。话者转换在个性化语音合成、有声读物制作、娱乐玩具、身份伪装语音通信等领域有着重要的应用价值。随着近些年机器学习的快速发展,使用深度学习进行统计建模逐渐成为实现话者转换的主流技术途径。这类话者转换方法一般由特征提取模块、声学特征预测模块、声码器等部分构成。特征提取模块通过声学分析,从语音波形中
钛及钛合金已经成为骨科及牙科领域中应用广泛的植入金属材料。随着全球人口老龄化的发展以及科学技术的不断进步,人们对钛植入物的性能提出了更高的要求。因此,解决钛植入物所面临的骨整合不足以及细菌感染等临床难题,保障植入物的长效使用寿命,是实现我国植入医疗器械创新发展的一个重要机遇。本文选择所在课题组开发的自身具有抗菌、促成骨及促血管生成等生物功能的新型钛铜(Ti-Cu)合金作为研究对象,通过对其进行表面
超级陶粲装置(Super Tau-Charm Facility,STCF)是我国继北京正负电子对撞机(Beijing Electron Positron Collider Ⅱ,BEPCⅡ)之后的基于加速器的粒子物理大科学装置的重要选项之一。BEPCⅡ实验在陶粲物理领域取得了大量成果,如陶轻子质量测量、Zc(3900)等新粒子发现、Collins碎裂函数测量等。但由于受到对撞亮度和质心能量的限制,对
我们分析了 Chimera图上的连续时间量子游走,Chimera图是D-Wave量子退火计算机底层物理结构的拓扑图。我们发现了明显区别于经典量子游走的独特量子游走特性,例如局域性。为了更深入的研究不同底层结构的改变对退火量子计算产生的影响,我们研究了 Chimera图的增强变体和弱化变体。增强变体通过增加量子比特之间的耦合实现,相应的,弱化变体则通过切断某些量子比特之间的耦合实现。反映在Chime
1980年,von Klitzing,Dorda和Pepper实验上发现两维电子气在低温强磁场的条件下会出现整数化的霍尔电导平台,这就是著名的整数量子霍尔效应。在此后的研究中,人们发现量子化的霍尔电导与材料能带的拓扑性质息息相关,从而揭开了拓扑物相研究的序幕。在经典的Ginzburg-Landau相变理论中,相变由系统的局域序参量刻画,相变时伴随着系统对称性的破缺。但在拓扑相变中,这一图像不再成立
太赫兹辐射的产生和应用正在加速相关领域科学研究的发展,其为探测和控制固体中的准粒子和集体激发,驱动相变和材料性质的相关变化,以及研究分子系统中的旋转和振动提供了新的工具。其中,超快强场太赫兹光源的出现打开了通往控制反应和过程的大门。这种太赫兹脉冲可以驱动物质的新动态状态,表现出与平衡状态完全不同的性质。同时,量子系统的相干控制和磁化介质研究对太赫兹光源的先进性能提出了新的要求。发展具有频率啁啾、携