基于Hypertable的查询计算引擎设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：luckychuan

【摘要】

：

随着大数据技术的发展,NoSQL数据库变得流行,人们对此类技术的期望和要求也越来越高。当非关系型数据库最开始被提出时,只是为了解决稳定的海量数据存储及简单的并发查询。但

【作者】

：

丛汉廷

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2015年01期

【关键词】

：

大数据非关系型数据库 Hypertable Stom

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据技术的发展,NoSQL数据库变得流行,人们对此类技术的期望和要求也越来越高。当非关系型数据库最开始被提出时,只是为了解决稳定的海量数据存储及简单的并发查询。但随着数据规模的增大和数据种类多样性的发展,使用者开始更关心对数据的关系型操作。为了在NoSQL数据库上获得的关系型操作的查询计算能力,通常的做法是根据实际情况,另外实现相关的系统或算法来作为辅助。这种做法不具有通用性和简便性,使用方法也因系统而异,没有统一的标准,学习成本高。因此,实现如何获得了关系型的数据操作的同时也获得NoSQL数据库的性能这个问题面临着挑战,也是本文将要研究并解决的问题。本文在调查并研究了相关开源解决方案的情况下,设计并实现了Hypertable之上的SQL查询计算系统。解决了获得NoSQL数据库的性能的同时实现关系型的数据操作的问题；使用类SQL语言,更符合用户的使用习惯,降低学习成本。本文完成了以下工作：(1)本文设计的系统基于Hypertable作为系统的核心及底层存储模块；利用Storm为编程模型代替了现有解决方案中常用的MapReduce模型,实现内建函数来扩展丰富查询与计算；设计了系统使用的查询计算语言HHQL并实现其解析器；实现了查询计算任务调度,能够根据查询语句自动构建任务代码并执行；构建了一个易用、高效的分布式大数据查询计算系统。(2)调研了当前主要的分布式流式计算系统——Apache Storm；通过比较其计算效率、编程接口丰富程度和友好性等方面,确定了Storm作为查询计算系统的计算层框架和算子模型；并利用Storm中的DRPC模型,实现了系统中的内建计算算子。(3)基于标准Sql设计一套使用于本文实现的查询计算系统中的查询语言HHQL。并通过对JSqlParser的二次开发,实现了HHQL语言的解析器。(4)设计实现了查询计算任务执行管理器。任务执行管理器负责生成任务执行代码,在任务的整个生命周期中负责维护任务实例,包括执行任务、结束任务和失败容错等。(5)设计了主从式的分布式系统结构,提供了远程过程调用的开发工具包(SDK),实现了底层透明的查询计算请求。即用户无需直接操作集群系统,或者自己实现Storm算子,直接利用HHQL语句结合SDK中提供的接口就可以做实时查询与计算。通过以上工作,实现了一个完整的大数据查询计算系统,扩展了非关系型数据库,提供了高效、易用的工具。

其他文献

视觉图像三维重建中的关键问题研究

三维重建是计算机视觉模拟人眼功能所需要完成的最后一步,即从二维图像获取景物的三维结构信息,具有成本低廉、操作简单、真实感高等优点,有着广泛的应用前景,已成为计算机图

学位

视觉图像视觉图像三维重建三维重建图像重建图像重建计算机视觉计算机视觉几何重建几何重建

基于安全模式的Web安全研究及风险管理

保障软件安全性是软件系统正常运转业务的先决条件，软件安全已引起人们的广泛关注。随着Internet逐步深入人类的社会生活，用户需求的逐步复杂、软件规模的不断扩大，以及开放的分

学位

安全模式风险管理安全成本软件安全软件开发

基于笔和语音的多通道儿童讲故事系统

随着计算机的普及，越来越多的儿童开始使用计算机。无论是在课堂还是在家里，他们利用计算机玩游戏、学习知识，计算机正在逐渐改变儿童的生活、学习方式。讲故事在儿童的成长过程

学位

多通道交

工作流技术在电子政务办公软件开发中的研究与应用

随着社会的发展和政府机构改革的深入，各个政府职能部门之间的协同工作显得越来越重要，电子政务的复杂度日益增加，原有的办公模式已经不能适应日益增长的事务处理、信息共享等方

学位

工作流引擎电子政务JBPM工作流管理系统

基于遗传神经网络的手写体数字识别研究

手写体数字识别,在模拟人工智能、计算机文字处理等方面具有巨大的应用前景。世界各国的模式识别研究者都为此做出大量的研究,提出了很多图像预处理算法和识别算法。然而无论

学位

手写体数字识别遗传算法人工神经网络结构特征

基于XML的数据仓库多维模型的研究与应用

随着企业对决策管理信息需求的不断增加,传统的OLTP(联机事务处理)数据库系统已无法满足客户的要求,数据仓库和OLAP(联机分析处理)技术正是为解决这一矛盾而产生的新的数据库

学位

数据仓库XML多维模型数据立方

对等网络拓扑测量与分析技术研究

对等网络应用在Internet上的日益流行，为Internet乃至整个社会带来了信息共享的革命。准确地测量、深入分析对等网络的拓扑特征，研究对等网络在各种安全事件情景中的可生存性，对

学位

对等网络拓扑测量拓扑分析可生存性

基于网络拓扑测量的IP地址定位系统的设计与实现

近年来,随着互联网的快速发展,越来越多的网络服务需要根据用户IP地址所在的地理位置才能更好地被提供。IP地址与地理位置相关联的过程就称作IP定位。IP定位在如今的互联网服

学位

IP定位IP地址库网络拓扑测量可信度地理位置信息

基于多媒体Ontology的跨媒体检索技术研究

随着互联网上多媒体音频、图像、视频等多媒体数据数量的迅速膨胀，人们越来越需要一种新的检索方式，使得检索能够跨越不同类型的多媒体数据(如图像、音频等)，从而帮助人们获得多

学位

跨媒体检索信息检索特征中心集多媒体系统

P2P文件共享系统Maze的社会网络服务部署、分析及应用

随着Internet的广泛应用，应用范围也从电子邮件、网页浏览扩展到了文件共享和下载，而文件下载和共享应用首选的网络结构是P2P结构。随着Internet应用的深化，社会网络的概念日益

学位

P2P文件共享系统社会网络Maze系统货币系统分布式搜索算法

基于Hypertable的查询计算引擎设计与实现

与本文相关的学术论文