基于Hypertable的查询计算引擎设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:luckychuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的发展,NoSQL数据库变得流行,人们对此类技术的期望和要求也越来越高。当非关系型数据库最开始被提出时,只是为了解决稳定的海量数据存储及简单的并发查询。但随着数据规模的增大和数据种类多样性的发展,使用者开始更关心对数据的关系型操作。为了在NoSQL数据库上获得的关系型操作的查询计算能力,通常的做法是根据实际情况,另外实现相关的系统或算法来作为辅助。这种做法不具有通用性和简便性,使用方法也因系统而异,没有统一的标准,学习成本高。因此,实现如何获得了关系型的数据操作的同时也获得NoSQL数据库的性能这个问题面临着挑战,也是本文将要研究并解决的问题。本文在调查并研究了相关开源解决方案的情况下,设计并实现了Hypertable之上的SQL查询计算系统。解决了获得NoSQL数据库的性能的同时实现关系型的数据操作的问题;使用类SQL语言,更符合用户的使用习惯,降低学习成本。本文完成了以下工作:(1)本文设计的系统基于Hypertable作为系统的核心及底层存储模块;利用Storm为编程模型代替了现有解决方案中常用的MapReduce模型,实现内建函数来扩展丰富查询与计算;设计了系统使用的查询计算语言HHQL并实现其解析器;实现了查询计算任务调度,能够根据查询语句自动构建任务代码并执行;构建了一个易用、高效的分布式大数据查询计算系统。(2)调研了当前主要的分布式流式计算系统——Apache Storm;通过比较其计算效率、编程接口丰富程度和友好性等方面,确定了Storm作为查询计算系统的计算层框架和算子模型;并利用Storm中的DRPC模型,实现了系统中的内建计算算子。(3)基于标准Sql设计一套使用于本文实现的查询计算系统中的查询语言HHQL。并通过对JSqlParser的二次开发,实现了HHQL语言的解析器。(4)设计实现了查询计算任务执行管理器。任务执行管理器负责生成任务执行代码,在任务的整个生命周期中负责维护任务实例,包括执行任务、结束任务和失败容错等。(5)设计了主从式的分布式系统结构,提供了远程过程调用的开发工具包(SDK),实现了底层透明的查询计算请求。即用户无需直接操作集群系统,或者自己实现Storm算子,直接利用HHQL语句结合SDK中提供的接口就可以做实时查询与计算。通过以上工作,实现了一个完整的大数据查询计算系统,扩展了非关系型数据库,提供了高效、易用的工具。
其他文献
三维重建是计算机视觉模拟人眼功能所需要完成的最后一步,即从二维图像获取景物的三维结构信息,具有成本低廉、操作简单、真实感高等优点,有着广泛的应用前景,已成为计算机图
保障软件安全性是软件系统正常运转业务的先决条件,软件安全已引起人们的广泛关注。随着Internet逐步深入人类的社会生活,用户需求的逐步复杂、软件规模的不断扩大,以及开放的分
随着计算机的普及,越来越多的儿童开始使用计算机。无论是在课堂还是在家里,他们利用计算机玩游戏、学习知识,计算机正在逐渐改变儿童的生活、学习方式。讲故事在儿童的成长过程
学位
随着社会的发展和政府机构改革的深入,各个政府职能部门之间的协同工作显得越来越重要,电子政务的复杂度日益增加,原有的办公模式已经不能适应日益增长的事务处理、信息共享等方
手写体数字识别,在模拟人工智能、计算机文字处理等方面具有巨大的应用前景。世界各国的模式识别研究者都为此做出大量的研究,提出了很多图像预处理算法和识别算法。然而无论
随着企业对决策管理信息需求的不断增加,传统的OLTP(联机事务处理)数据库系统已无法满足客户的要求,数据仓库和OLAP(联机分析处理)技术正是为解决这一矛盾而产生的新的数据库
对等网络应用在Internet上的日益流行,为Internet乃至整个社会带来了信息共享的革命。准确地测量、深入分析对等网络的拓扑特征,研究对等网络在各种安全事件情景中的可生存性,对
近年来,随着互联网的快速发展,越来越多的网络服务需要根据用户IP地址所在的地理位置才能更好地被提供。IP地址与地理位置相关联的过程就称作IP定位。IP定位在如今的互联网服
随着互联网上多媒体音频、图像、视频等多媒体数据数量的迅速膨胀,人们越来越需要一种新的检索方式,使得检索能够跨越不同类型的多媒体数据(如图像、音频等),从而帮助人们获得多
随着Internet的广泛应用,应用范围也从电子邮件、网页浏览扩展到了文件共享和下载,而文件下载和共享应用首选的网络结构是P2P结构。随着Internet应用的深化,社会网络的概念日益