【摘 要】
:
从物联网和有全球位置定位系统(GPS)的智能设备来的大规模数据流正流入数据库系统作进一步的处理和分析。实时检索新数据和历史数据的能力成为了智慧制造和智慧城市等现实应
论文部分内容阅读
从物联网和有全球位置定位系统(GPS)的智能设备来的大规模数据流正流入数据库系统作进一步的处理和分析。实时检索新数据和历史数据的能力成为了智慧制造和智慧城市等现实应用的关键。然而已有的解决方案,例如HBase,因为它在索引更新上有大量的开销,所以并不能提供满意的性能。而以Druid为代表的时间序列数据库同样不能提供很好的性能。因为时间序列数据库缺少第二维度的范围索引所以它不能在非时间属性上提供高性能的范围查询。本文针对实时插入和实时范围检索的应用提出了一个简单而有效的分布式解决方案,使得系统支持每秒百万个元组的插入和自定义的毫秒级别延迟查询的时间范围查询。本文提出了一个新的数据划分方法。这种新的数据划分方法能利用工作负载的特点和避免全局数据合并。而全局数据合并的代价是十分昂贵的,这会使得系统性能降低。为了解决系统吞吐量不足的性能问题,基于进入系统的元组的数据分布相对稳定的前提条件和假设,本文提出了一个模板依据的索引方法来避开不必要的索引结构调整。本文提出的共享分布式文件系统架构的解决方案通过模板B+树索引,充分利用了有限的计算资源和网络带宽。插入操作仅仅包括读取模板B+树中的中间结点,仅仅在叶子结点中可能会有少量的竞争锁的操作,从而保证了高并发的索引更新和查询。为了系统能并行进行数据插入和查询处理,本文提出了一个有效的调度算法和有效的负载均衡策略来更好地使用计算资源。为了测试系统的性能,本文在人造和现实数据集上进行了大量的实验,首先测试模板B+树的索引性能和数据块大小对系统性能的影响,然后测试了系统对于数据分布的适应性,最后测试了整个系统的插入性能并和已有的解决方案HBase,Druid等作对比。实验结果表明,无论在人造还是现实数据上,本文的系统都比已有的系统性能表现至少好一个数量级。系统的性能表现优异的主要原因在于系统采用了两层的索引架构,同时使用模板B+树来减少索引结构维护的开销。此外,系统的查询调度算法和负载均衡方案能更好地利用计算资源。
其他文献
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色,其广泛地应用于分类、聚类、异常检测、特征选择和实例检索等机器学习算法中。对连续数据的度量已经很成
本文共分3章,致力于研究图的平面性测试。在第一章中我们解释定义,给出DFS算法等一些著名的图算法,以及将在下一章使用的一些数学准备。在第二章中,我们描述平面性过程。为此
近年来,责任缺失的现象时有发生,这引起了全社会的广泛关注,党和国家对于青少年的社会责任意识的培养愈加重视。我们的大学教育有责任去帮助和培养学生树立社会责任意识,课程
单质硼以B12正二十面体为基本的结构单元,通过非常规的、三中心化学键共享电子来弥补其电子缺失性,硼成为周期表第三主族中唯一的非金属元素。压力状态下,引入电负性更高的元
在全球化和大数据时代背景下,翻译的需求量快速增长,译者的任务日益繁重,传统的人工翻译方式显现出成本高、翻译效率低等不足之处。在这种情况下计算机辅助翻译技术的出现为翻译工作提供了巨大的便利。计算机辅助翻译是一种翻译者使用计算机程序替代部分人工翻译过程的翻译策略,它可以一定程度上有效的帮助翻译者更高效更轻松地完成翻译任务。计算机辅助翻译可以说来源于机器翻译但又不同于以往的机器翻译软件,它不依赖于计算机
图像隐写是一种将秘密信息嵌入到图像的元素中而使其不被发现的技术,而图像隐写分析作为它的对立面,其目的是检测图像中是否有被嵌入秘密信息,主要是通过先提取特征再训练分
随着Internet技术和快递物流的发展,网上购物逐渐成为我国人们新的购物习惯,我国网购市场规模变得空前巨大。企业在吸引越来越多的客户进入网购平台的同时,也面临着如何利用
随着人们对微观世界认识的不断深入,探索原子核内部的本质构造成为了一个无可规避的难题。原子核是由质子和中子构成的,这已经是一个常识[1],但质子与中子究竟是以何种方式结
本文对不确定性语义的时态查询问题进行研究,主要目的为解决时态查询及其演算在表达能力与计算复杂性之间的两难性平衡优化问题。在时空大数据、时空众包与云计算等应用的催
ABA在植物生命周期中起着关键的作用,例如种子的休眠、萌发、幼苗的生长以及开花等。更重要的是,ABA使植物能够耐受与水相关的胁迫,例如干旱和盐度等。迄今为止,在ABA的信号