基于Hadoop的数据仓库引擎的设计与实现

被引量 : 9次 | 上传用户:ericshen81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库系统是现代企业不可或缺的决策支持系统之一,长久以来它一直由关系型数据库系统和并行数据库系统提供技术支持。然而最近几年,随着企业对管理海量数据的需求不断增长,传统的数据仓库系统在扩展性方面遇到了巨大的障碍。另一方面,大数据处理技术Hadoop凭借着其高度的可用性和伸缩性、低成本等优点,正在成为许多公司数据管理的基础。Hadoop最初由分布式文件系统HDFS和并行计算框架MapReduce组成,随后许多为Hadoop提供SQL接口的数据仓库引擎被开发出来,其中最为广泛使用的是Facebook公司的Hive。然而Hive使用MapReduce作为底层的执行引擎,因此也继承了MapReduce的性能问题,在处理TB级别的数据时查询性能远不如并行数据库系统。本文描述了一个基于Hadoop的高性能数据仓库引擎的设计与实现。该系统采用了一种混合架构,使用HDFS作为存储层,使用并行的SQL执行引擎作为计算层。使用HDFS存储用户数据使得系统本身不需要处理数据副本管理、容忍磁盘故障等问题。使用并行的SQL执行引擎取代MapReduce来执行查询使得系统能够达到和并行数据库系统相当的出色性能。另外,该系统能够完整地支持事务,这是许多现有的Hadoop数据仓库引擎尚未实现的。本文将讨论该系统的各个方面,包括架构设计、并行查询处理、事务支持、列式存储等。该系统基于PostgreSQL进行二次开发实现,本人主要参与了其执行器模块的开发,包括扩展迭代器模型、实现开放的列式存储格式Parquet等。本人还参与了系统的性能测试工作。最后,本文使用了TPC-H基准对该系统进行了全面的性能评估。测试结果显示,在处理简单选择查询时,该系统的性能是Hive的10倍以上;在处理复杂连接查询时,该系统的性能是Hive的40倍以上。
其他文献
近年来,渤中凹陷西斜坡新近系油气勘探相继取得重大突破,成为深入挖潜的重要区带。在对渤中凹陷西斜坡新近系油气分布和油源分析的基础上,总结了该斜坡新近系油气成藏的主控
目的:探讨锁孔入路治疗老年高血压小脑出血的有效性与安全性。方法:收治老年高血压小脑出血患者59例,根据时间节点分为幕下开颅组(2013 年1 月-2015 年1 月34 例采用传统幕下
P2P网络借贷是近几年兴起的一种通过网络平台向第三方借款及贷款的网络金融平台。P2P借贷最大的优越性,在于它弥补了传统金融机构服务的空缺,充分整合社会资源,合理利用社会闲散
我国自1998年开始进行了住房体制的改革。个人房贷业务给金融机构带来巨大的利息收入,在一定程度上成为了房地产消费与经济发展的支柱业务。在这业务发展的背后也有着相应的
近年来,随着佘祥林案、赵作海“故意杀人”案、浙江萧山5人“劫杀”案、浙江张氏叔侄“奸杀”案等错案频频被媒体曝光,公众对于刑事错案的关注度逐渐上升,对于我国司法制度的
明代立国以后,采取有力措施招抚流民,以“计民授田”的方式形成了以自耕农为主体的社会经济结构。在此基础之上,明政府完成了人口统计,建立起严密的里甲制度。为应对日益增多
民航运输的快速发展,为人们的出行带来了巨大的便利,机场建设对于提升地区经济品质也起到了良好的带动作用,然而,不正常航班及延误问题日益凸显,而这也直接关系到民航整体服
随着电子技术的迅速发展,电子设备的功耗越来越高,大功率的电子产品也越来越成为分析与设计时最关注的部分。铜排作为大电流导电产品,在电气设备和电力系统中有着广泛的应用,
近些年来,随着计算机技术、自动化技术和网络技术的飞速发展,智能化和网络化也成为温室环境控制的发展方向,对温室作物的栽培和管理也开始注重节约能源及其可持续发展性。吉林地
数组和指针是C语言学习的重点与难点,就数组与指针的密切关系,分别对指针、数组元素的引用、数组指针和指针数组等知识点进行归纳总结,探讨了不同类型指针在数组中的使用方法