基于LSM-Tree存储系统的缓存和索引关键技术研究

来源 :天津理工大学 | 被引量 : 0次 | 上传用户:wanglin0824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日志结构合并树(Log-Structure Merge-tree,LSM-tree)具有高效的写入性能并且在大数据场景下性能表现良好,它通过内存组件将随机写转换成顺序写,然后将数据组织成排序字符串表(Sorted String Table,SSTable)的形式顺序写入到磁盘中。磁盘组件是一个多层结构,LSM-tree通过合并操作来整理底层组件的数据并清除无效信息。合并操作会不定期的整理底层数据并将整理后的数据写入到新文件中去,合并操作的引入也带来了一些性能问题,主要是缓存失效、写放大和读放大。针对上述问题本文提出了如下解决方案:1)提出了两阶段并行预取方法用于减少合并操作带来的缓存失效。缓存失效发生的根本原因是合并操作会将磁盘组件中的数据重新整理并写入到新文件,这会导致块缓存中的部分数据成为无效数据,在之后的访问中不会再被访问到,为了改善缓存失效带来的阶段性缓存命中率下降的问题,本文通过两阶段预取方法将未来可能会被访问到的数据块预取到缓存中。实验证明,两阶段并行预取方法可以将合并操作后的缓存命中率提升约2.65倍。2)提出了基于哈希分组的索引结构设计,用于改善LSM-tree索引结构在做读写权衡的过程中引入的写放大和读放大问题。LSM-tree是针对写性能优化的索引结构,在追求极致写入性能的同时,其也对读性能做了一些让步,首先是底层组件的多层有序存储结构使得查询操作可以逐层利用二分法进行查询,但是在最坏情况下需要遍历全部文件才能找到该数据,同时多层结构也使得磁盘中存储的数据量大于实际写入的数据量,随着时间的推移这会严重影响SSD的使用寿命。本文通过分析写放大和读放大的产生原因,提出了基于哈希分组的读写权衡方案,通过将数据分成多个组并减少磁盘组件的层数来达到减少写放大和读放大的目的。经实验验证,基于哈希分组的索引结构设计能够在维持高效写入性能的前提下提升约11%的读取性能。
其他文献
当前环境污染、自然灾害加剧、自然资源匮乏等,已经影响到了人类的健康生活乃及生存。十九大报告中,习总书记提出“坚持人与自然和谐共生”和“坚持推动构建人类命运共同体”的人类社会发展新理念。由此环保工作被提到了一个前所未有的高度,之后十九届历次全会都强调了党中央对生态文明建设的决心。所以我国当前正在大力推广这个新的人类社会发展理念,坚持可持续发展战略。为了贯彻落实这个战略精神,建筑工程施工首当其冲要进行
城市是承载人类文明的重要场所,是人类生产和生活活动的聚集区域。19世纪40年代以后,随着工业产能的爆发式增长,全球城镇化发展速度加快。根据2019年联合国公布的数据预测,未来三十年内全球将有近四分之三的人口成为城市居民,短时间内大量人口的涌入会导致环境污染、人口拥挤、资源供应不足等城市问题。在经过快速发展后我国也面临同样的困境。改革开放以来,我国在经济建设方面取得巨大成就,城市规模随之扩大,城镇化
时间序列是从均匀的时间间隔和给定的采样率下测量收集的有序数据,在各个领域中广泛存在。现实中采集的时间序列大多是没有标签信息的样本数据,有标签信息的数据很难采集,而人工标记的成本往往十分巨大。时间序列聚类是在没有任何先验知识的情况下分析大量时间序列数据的有效方法,其目的是以某种方式将给定的数据集划分为一组不重叠的集群,从而揭示数据的底层结构。但由于时间序列高维,高冗余以及存在非线性结构等特点,将传统
近年来随着新能源发电系统被广泛推广和利用,固态变压器迅速兴起,为各种直流或交流分布式电源、非线性设备等提供了进入电力系统的友好接口,它不仅可以实现可再生能源的即插即用,而且可以通过电力电子转换技术实现电力系统中的电压转换和双向能量传输,但固态变压器逆变级作为一种非线性系统,随着越来越多的分布式能源接入,运行时不可避免地受到多种复合扰动的影响,而传统的控制策略越来越不能满足需求,为提高其性能,解决各
电力电子系统具有能量转换效率高和可控性好的优点,已被广泛应用于航空航天、工业自动化、交通运输、可再生能源发电等领域。但是,由于工况复杂且严苛,电力电子系统的可靠性要求较高。然而,功率器件作为电力电子系统的关键单元,其对系统的安全性和可靠性起着决定性的作用。IGBT模块是一种应用最为广泛的功率器件,故本文以IGBT模块为研究对象,主要从IGBT模块组成的Buck变换器的电磁干扰信号与芯片结温和模块内
随着如今电子元器件更趋向于大规模集成化和微型化,传统半导体材料逐渐暴露出短板,因此,科研人员在自然界寻找一些能够取代传统材料的新型半导体材料。由于传统半导体受到禁带宽度的限制,在有些方面的性能有很大的不足,一些超宽禁带材料开始引起人们的注意。在超宽禁带半导体材料中,氧化镓在击穿电场、透光率以及电子迁移率等方面的优势非常显著,所以广泛地应用在一些大功率、高频以及光电器件中。氧化镓材料的研究可以分为氧
近年来,多模光纤(Multimode Fiber,MMF)在腔内医学诊断和光学成像等领域有着广泛应用。由于MMF中包含模式众多,不同模式之间的干涉和色散等相互作用使图像经过MMF传输后呈现散斑状图案。因此,阐明MMF输入与输出图像之间的非线性映射关系是研究MMF图像传输和散斑重构成像的关键。本文设计了一种卷积神经网络,用来实现散斑信息的高利用率和散斑图像重建的高准确度。此外,MMF成像过程中很多因
随着中国经济的快速发展,基础设施建设也突飞猛进。基建的主体结构基本上都是由钢材、水泥、砂石等工程材料构建而成,为施工项目供应工程材料的工程材料采销企业应运而生。因为工程材料采销行业门槛比较低,对业务流程的管理较为粗放。随着竞争的加剧,市场对工程材料采销企业提出了更高的要求,成本取胜、低价中标成为行业常态,经营风险随之增加。那么,工程材料采销企业如何对原有的业务流程进行优化,将流程中的风险、成本和效
为保障输水管线安全高效运行,解决输水管道状态实时检测问题,本文搭建基于输水管线的相位敏感光时域反射计(Phase-sensitive optical time domain reflectometry,Φ-OTDR)预警系统,设计算法实现了管道振动信号处理与模式识别功能,降低了系统的误报警率。本文具体研究内容主要分为以下几点:(1)对实验室采集到的PZT压电陶瓷振动信号进行去噪处理。使用均衡优化算
随着经济的快速发展,车辆行驶安全已成为当今社会极度重视的安全问题。因此本文提出了一种基于单目与视觉技术的车辆测距预警系统。该系统首先使用基于YOLOv5s改进的算法对需要检测成像车辆进行识别处理,然后在此识别基础上对目标使用测距算法,实现目标的测距效果。最后,在开发板上移植测距系统,测试测距精度。本文中主要的内容还包括:(1)针对YOLOv5s算法中模型训练梯度消失,小物体目标识别困难以及边界框回