【摘 要】
:
基于日志结构合并树(Log-Structured Merge-tree,LSM-tree)的键值(Key-Value,KV)存储凭借优异的写性能优势广泛应用在写密集型应用场景中。随着NAND闪存技术向更高存储密度的方向发展,NAND闪存的操作单元越来越大,基于NAND闪存的固态盘(Solid State Drive,SSD)容量也越来越大。一方面,更大容量的SSD需要更大的LSM-tree来管理:
论文部分内容阅读
基于日志结构合并树(Log-Structured Merge-tree,LSM-tree)的键值(Key-Value,KV)存储凭借优异的写性能优势广泛应用在写密集型应用场景中。随着NAND闪存技术向更高存储密度的方向发展,NAND闪存的操作单元越来越大,基于NAND闪存的固态盘(Solid State Drive,SSD)容量也越来越大。一方面,更大容量的SSD需要更大的LSM-tree来管理:LSM-tree的深度增加、每层数据增多,读/写放大问题就更严重。另一方面,SSD操作单元的增大会使得现有的软硬件协同优化设计效果不佳,将LSM-tree键值存储的合并(compaction)单元——SSTable(Sorted String Table)存储在一个闪存块中无法充分利用SSD的内部并行性,但将SSTable文件的大小和一个超级块(包含多个闪存块)的大小匹配将导致在compaction中更多的数据迁移。针对上述问题,设计基于高密度SSD的LSM-tree键值存储系统m LSM。m LSM主要包含三个关键设计:(1)Multi-LSM-tree,通过源地址哈希算法将KV数据分布到多棵LSM-tree进行存储,以限制每棵LSM-tree的深度、减少compaction涉及的数据量,从而减少读/写放大。(2)并行数据布局,采用基于超级子块的数据布局方法,一个超级块被划分为若干超级子块,将SSTable文件的大小和超级子块的大小相匹配,避免单次compaction开销过大,同时超级子块横跨所有闪存芯片,以利用SSD的多级并行性。(3)惰性垃圾回收策略(Lazy Garbage Collection,Lazy GC),尽可能推迟垃圾回收操作,使得待回收闪存块中有更多的失效数据,从而减少有效数据的迁移。测试结果表明,在YCSB测试中,与传统的LSM-tree KV存储(LSM)方案相比,m LSM方案的读/写放大分别至多减少了75.95%和88.74%,吞吐量提升了1.84~2.47倍;与Flash KV方案相比,m LSM方案的读/写放大分别至多减少了95.41%和81.64%,吞吐量提升了1.56~3.01倍。在db_bench测试中,相比LSM方案和Flash KV方案,m LSM在读/写/擦除闪存次数上分别至多减少了85.21%/87.44%/91.38%,84.73%/86.76%/91.11%。
其他文献
生物信息识别是指基于可测量的身体和行为特征自动识别个体的一种技术。实践中,生物信息识别易诱发信息泄露,隐私权被稀释,产品误差等风险。鉴于生物信息识别适用场景和主体的复杂性,适宜采取包括企业、立法者和数据平台在内多方协同治理的模式。企业应当制定内部合规方案和强化行业自律;立法者可以细化个人信息分类和增设滥用生物识别信息罪;而数据平台则需要优化“知情——同意”制度。
信息时代数据量呈爆炸性增长,对数据处理的性能、可靠性以及存储的容量都提出了更高的要求。一方面,传统的冯诺依曼体系采用存储与计算分离的体系结构,数据迁移消耗了大量I/O资源和能耗开销;另一方面,存储与计算性能发展不平衡的矛盾日益凸显,目前处理器处理器速度每年增长60%,存储器存取延迟每年仅改善7%,数据访问延迟大。存算融合的体系架构通过在存储中分担计算任务来减少数据移动带来的高昂开销,成为了解决“存
随着化石燃料的过度消耗给地球带来不可逆转的环境伤害,研究人员开始寻求高效存储能量的方法。经过40多年的发展,锂电池储能技术日渐成熟,作为一种高能量密度且环保的技术,锂电池已经被广泛地应用于汽车、消费电子、医学器件与能源存储领域。为了实现能源的高效利用,锂金属电池中首要问题——锂枝晶的生长问题成为亟待解决的重中之重。枝晶这种现象会直接导致电池出现库伦效率降低、循环寿命变短等问题,更有可能引发严重的安
岩性是评估地层特征和储层油气含量的关键,开展储层岩性识别研究对油气勘探和开发具有重要意义。针对传统基于机器学习的岩性识别方法的局限性:1)忽略了岩性和测井序列在深度空间上的相关性;2)未考虑不同油井测井数据的特征、岩性分布差异性的影响,本文以中国江汉地区页岩油井测井数据为研究对象,从原始测井序列数据分析角度出发,利用深度学习和半监督学习理论方法,分别从测井序列数据预处理、同油井岩性分类和跨油井岩性
云计算已经成为了当前主流的信息技术,随着云计算的快速发展,其中的安全问题也日益突出。云环境具有动态性、开放性和异构型的特点,恶意程序很容易转移到云环境中,隐私安全成为了云计算发展中必须要解决的问题。在云环境中,很容易销毁用户隐私窃取行为的痕迹、很难定位和追踪恶意样本来源,因此云环境下的隐私安全问题一直是一个挑战。针对云环境下的隐私安全问题,设计开发了隐私侵犯事件融合与关联分析系统。首先在云环境的入
我国抗击新冠疫情历程曲折,疫情初发期内城市社区缺乏快速高效的组织能力来应对疫情风险,其教训值得反思。本文首先引入民航飞行险境处理中的快速参考手册(QRH)及其蕴含的“危机自救”与“范式指引”两大核心理念,探讨面对传染病风险治理新挑战而引入新理念的必要性,并从比较飞行危机处理与传染病疫情防控的类似性、梳理QRH理念对社区防控方式的借鉴性这两方面说明QRH理念对传染病社区防控的理论适用性。接下来,本文
容器虚拟化越来越流行,在云计算平台上很多应用都基于容器环境来执行。和虚拟机相比,容器由于采用共享宿主机内核的方法,在性能表现上更加突出,但同时也牺牲了隔离性。内存带宽作为容器间竞争十分剧烈的资源,在多容器环境下,由于不同负载容器存在不同的内存带宽敏感性,某些容器过量占用内存带宽,其他容器内存带宽需求无法得到满足,从而造成某些容器性能下降严重,而某些容器几乎不受影响,也就是系统不公平性上升。因此一种
信息技术在工业场景的广泛应用,促进了IT技术与OT技术的融合,传统的工业网络无法满足大带宽、高实时性和高确定性网络传输的要求,因此提出通过时间敏感网络对网络中不同的流提供不同的传输质量服务。近几年时间敏感网络的发展较快,国内还没有对搭建后的TSN网络进行性能测试的工具或系统,因此本文构建了基于边缘计算的时间敏感网络性能测试平台来便捷的测试时间敏感网络的性能。通过分析时间敏感网络性能测试的需求,采用
醌类化合物具有高亲电性去芳构化的特点,是有机合成领域极为重要的一类合成子,但却因易水解和聚合的特性导致许多亚稳类型的醌类化合物无法得到有效应用。针对其低稳定性、难分离的特点,我们基于仿生催化氧化策略,利用hemin/H2O2体系成功实现了亚稳醌亚胺中间体的原位生成,首次实现了这类中间体与N-芳基腙类化合物的1,3-偶极环加成反应,从而发展了一种全新的高效构建1,3,4-噁二嗪类杂环化合物的单步骤分
W(Mo)Te2具有优异的导电性以及独特的配位结构,在电催化领域具有较高应用潜力。发展基于W(Mo)Te2催化剂的结构调控策略对优化其析氢性能十分重要,利用单片电催化微纳器件能够实现单一结构因素调控下的电催化性能的精准确定,避免常规电催化测试中催化剂多种微结构对性能的干扰,基于此,本文发展等离子体处理/激光辐照等表面处理策略,实现单个W(Mo)Te2纳米片表面原子掺杂以及空位的精准构筑,利用单片电