分布式架构下数据库查询的并行处理与优化

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:lenchoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联网时代,各行各业所产生的数据已经成为了一种重要的生产要素,其背后蕴藏着巨大的价值。然而,面对持续增长的数据规模和不断产生的分析请求,单机架构下的数据库查询已经无法利用有限的硬件资源来满足低延时、高吞吐的数据分析需求。为此,学术界和工业界开始尝试将数据库查询部署在横向可扩展的分布式架构上,旨在利用分布式架构中充沛的硬件资源来提升数据库查询的性能。由于传统单机架构与分布式架构间的硬件环境差异,传统的查询处理方式往往无法充分利用分布式架构中可观的硬件资源,从而导致较低的性能提升。因此,如何充分地利用分布式架构中可扩展的硬件资源来提升数据库查询的性能便成了一个值得探讨的问题。本文研究分布式架构下数据库查询的并行处理技术,其主要围绕扫描算子、单查询和多查询这三个方面展开,重点关注以下三个问题:首先,对于扫描算子而言,当目标数据聚集在某些节点上时,当前并行扫描策略所产生的多个扫描子任务也会堆积在这些节点上,但却忽视了其它节点上的数据副本,从而无法充分利用分布式架构中多节点间的并行扫描能力。其次,对于单个数据库查询而言,分布式共享内存架构可以将不同节点上的内存资源抽象成为一片共享的内存空间,使得传统单机架构下的查询处理方案能够运行在分布式共享内存之上。但与单机架构相比,分布式共享内存架构仍是一个依赖网络连接的松耦合实现,容易导致查询处理过程中产生大量的网络通信开销,从而影响查询的处理性能。最后,对于多个数据库查询而言,一些类似的查询请求往往有着相同的查询算子,其容易构建出高度重叠的数据结构,导致了分布式架构中计算资源和内存资源的浪费,从而影响了多查询的并行处理性能。基于上述三个关键问题,本文的主要工作和贡献如下:(1)基于分布式共享存储中多副本的并行扫描方案:在共享存储架构中,数据表会被划分成为多个数据分片,存放在不同节点上。因此,当一个扫描算子涉及到多个数据分片时,该算子也可被划分成多个扫描子任务,从而并行地访问这些数据分片。然而,当某些节点拥有较多的数据分片时,扫描子任务也会聚集在这些节点上,从而只能实现有限节点间的并行扫描。基于此,本文提出了一种基于多副本的并行扫描方案,其核心思想是利用副本间的数据并行性,使得针对单个分片的扫描子任务被进一步划分成针对多个分片副本的扫描子任务,从而并行运行在不同节点的不同副本上,进而充分利用了多节点间的并行扫描能力。在多副本并扫描基础之上,本文还提出了一种基于线性规划模型的扫描划分策略,使得不同节点承担着相似的扫描负载。此外,本文还为每个节点设计一套多线程并行调度策略,保证并行扫描过程中节点内多线程间的负载均衡,且尽量降低单个线程内的任务切换开销。(2)分布式共享内存架构下网络敏感的查询处理框架:分布式共享内存架构打破了机器节点间的内存资源隔离,将不同机器节点上的内存暴露在统一的地址空间之下,使得单机架构下的查询处理方案可以快速部署到分布式架构下。但与单机共享内存架构相比,分布式共享内存架构仍是一个借助于网络连接的松耦合实现。因此,当传统的查询处理方案部署在分布式共享内存架构上时,一些普通的读写操作也可能频繁触发跨节点的内存访问,从而带来不菲的网络通信开销。为此,本文提出了一套网络敏感的查询处理框架。为了避免查询处理过程中存在网络带宽瓶颈,本文为该框架设计了一种交错调度策略,使得有着频繁网络通信的查询流水线可以和其它流水线交错处理,从而降低查询处理过程中的网络带宽消耗。此外,为了尽量减少查询处理过程中高时延的跨节点内存访问,本文还为该框架设计了一种基于赋权二部图的流水线子任务分配策略,使得流水线的处理过程有着较高的数据局部性。(3)面向多个哈希连接查询的块状哈希表重用方案:在数据分析场景下,频繁使用的哈希连接查询往往会构建相似的哈希表数据结构,从而浪费了大量的计算资源和内存资源。为此,本文尝试利用分布式架构中的大内存特点,将过往哈希连接查询所构建的哈希表数据结构缓存起来,使得后续查询能够重用这些数据结构,进而降低了多查询并行处理时的资源开销,提升多查询的并行处理性能。不同于已有的缓存重用方案,本文中的哈希表重用方案采用了块状管理机制,使得缓存中的每个哈希表被拆分成多个互不重叠的块状哈希表。因此,后续查询可以根据自身谓词条件来灵活地重用那些较为匹配的块状哈希表,从而提升了复杂谓词条件下的哈希表重用率。此外,本文还提出一种高效的调度策略,其可以同时从查询时延和查询吞吐的角度出发,灵活地选择不同的调度方式来较好地协调块状哈希表重用与缓存更新间的冲突。综上所述,本文深入研究了分布式架构下数据库查询的并行处理方式,从扫描算子、单查询和多查询的角度出发,进一步探讨了并行处理过程中的优化点,并给出了具体的优化方案。
其他文献
良好地润滑和有效的保养能够延长炼油化工企业机械设备的使用寿命,确保化工机械安全平稳运行,减少生产装置非计划停工时间,提高企业经济效益。本文论述了炼油化工企业在设备润滑和保养方面存在的问题,探讨了加强炼化企业设备润滑和保养方法和措施。
新产品、复杂产品的热处理都对热处理装备提出了更高的要求,帮助用户在更短的时间内挑选出合适的热处理装备是媒体和行业组织应尽的义务。经中国热处理行业协会指导,北京国际热处理展览会组委会和金属加工杂志社共同发起了"第四届热处理装备用户调查",旨在为热处理装备制造企业在产品的研发与改进、营销策略的科学制定以及热处理装备用户企业在选购产品等方面提供可靠的参考依据。
11月12日,随着康美药业股份有限公司(下称"康美药业")年报虚假陈述侵权特别代表人诉讼案(下称"康美案")一审落下法槌,A股市场百亿财务造假大案浮出水面。随着康美药业一众董监高成员被问责,其引发的蝴蝶效应随即开始。从康美案宣判当日至11月21日,上市公司掀起董监高成员辞职"狂潮"。超百家上市公司宣布部分董监高成员辞职,其中不乏光明乳业、裕隆、木林森等名企。
期刊
新历史方位、新时代背景、新时代课题、新主要矛盾、新哲学范式,既为把握习近平新时代中国特色社会主义思想的原创性贡献和历史地位提供了依据,从广义上讲又属于这一原创性贡献的重要组成部分。从狭义上讲,习近平新时代中国特色社会主义思想的原创性贡献和历史地位,更鲜明且主要地是从“理论维度”和“历史维度”两个层面呈现出来。正是这种原创性思想和原创性贡献,实现了马克思主义中国化新的飞跃。
习近平新时代中国特色社会主义思想之所以能够实现马克思主义中国化新的飞跃,就在于坚持把马克思主义基本原理同中国具体实际相结合、同中华优秀传统文化相结合,深刻揭示了马克思主义的理论特质,深刻阐明了马克思主义在中国创新发展的内在机理,从广度和深度上大大深化了我们对马克思主义中国化的规律性认识。首先,习近平新时代中国特色社会主义思想是当代中国马克思主义、二十一世纪马克思主义,是中华文化和中国精神的时代精华
目前,目标检测在人脸识别,交通流量检测等方面应用广泛,但国内方形木材数量识别主要使用的还是人工计数方式,清点人员需要在现场对方形木材进行点根,人工清点方形木材效率低,耗费人力。通过目标检测算法模型识别方形木材数量,人工修改误检的方式无疑能节约人力,降低成本。本文通过现场拍摄的方式获取了方形木材数据集,针对数据集中存在亮度不一等问题进行了数据增强,设计方形木材数量智能数量识别实验提出较好的数据增强方
文章以江苏省能源消费与工业发展为代表,研究了高质量发展背景下工业发展与能源消费的协调关系。一方面,主要利用江苏省电力消费数据,结合其他能源消费指标和数据,构造能源消费综合指数,反映江苏省能源消费变化特征;另一方面,结合构造的江苏省能源消费综合指数和工业数据,采用VAR模型对工业发展和能源消费的Granger因果关系和协整性进行实证分析,研究表明江苏省工业发展对能源消费存在显著的激励作用。当前阶段,
随着无线通信技术的发展,无线数据业务爆发性增长,为了满足未来无线通信网络的更大带宽和更高的频谱效率需求,毫米波技术受到广泛关注。毫米波具有丰富的频谱资源,但其高路径损耗制约着其发展,通过增加基站的数量来克服高路径损耗带来的影响,会造成极高的硬件成本。智能反射面作为一种无源设备,将其部署在无线通信系统中会带来诸多好处,例如可以有效的提升通信链路质量,增强用户通信的安全性,同时该技术符合绿色通信的理念