基于Hadoop平台的大数据迁移与查询方法研究及应用

来源 :武汉理工大学 | 被引量 : 15次 | 上传用户:kuofa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效的数据管理系统对于数据应用管理非常重要,然而数据规模的持续增长、数据类型的不断变化、非结构化数据成为存储和处理对象等因素,逐渐动摇了传统关系数据库的主导地位,仅仅使用传统关系数据库已经不能很好地解决上述问题,不能满足经济有效的存储、分析和访问数据。Hadoop由于对底层存储和并行处理透明化,同时拥有高性能的集群计算和存储能力,在分布式计算和大量数据处理方面脱颖而出。然而使用Hadoop平台对大数据进行处理,并实现高效率查询,需要对Hadoop与关系型数据库之间进行数据的迁移,将数据导入到Hadoop中进行分析处理,使用Hadoop来优化数据库核心工作效率及数据库性能、完成不断更新的查询需求。本文在讨论研究Hadoop平台相关架构及数据交换原理的基础上,对基于Hadoop平台的数据迁移提出了MapReduce技术的实现方案,MapReduce可以实现更优的并发性,从而可以体现优化数据转换的能力。首先深入分析MapReduce工作机制,及Hadoop三种常用的作业调度器。在此基础上,对MapReduce的作业调度器进行优化设计,将公平调度器与优先权(高响应比优先)调度算法相结合,提出了基于优先权的公平调度器的改进算法,同时以TaskTracker的负载均衡监听器辅助进行调度工作。然后分析HBase和Hive各自的工作机制,对Hive-HBase相结合的数据查询方法进行探讨,设计了一个基于Hive-HBase的数据查询方案。最后,搭建实验环境对基于Hadoop平台的数据迁移及数据查询进行实验与分析,对比基于不同调度算法的迁移性能,以及对比原系统与Hive-HBase相结合的查询方案二者进行数据查询的效率。经过实验分析,验证了本文构建基于Hadoop平台包括数据迁移和查询的完整数据处理的方案是可行的。数据迁移过程中对调度算法的优化提高了数据迁移性能,同时,使用Hadoop平台对大数据进行处理与传统关系数据库相比,在查询效率上体现其优势。因此,本文在对大数据进行处理上有一定参考价值。
其他文献
当今社会,计算机技术不断的发展,信息处理技术也随之不断的发展完善。而传感器作为提供信息的一种工具,它的发展就显得相对落后了。传感器技术是21世纪人们在高新技术发展方面争
近年来,我国经济始终保持快速、稳定的增长态势,但居民的收入分配差距却不断扩大,包含城乡差距、地区差距、行业差距等的中国收入差距问题异常复杂。国内外的理论和实证研究说明
花牛苹果在低温冷藏中、后期易发生严重的生理性病害—虎皮病。目前抑制虎皮病最有效的方法是应用二苯胺(DPA)和乙氧基喹处理,但因食品安全问题,其应用受到极大的限制。因此,探明
船舶总布置设计是船舶设计中极为重要的一部分,而船舶舱室布置设计又是船舶总布置设计一个重要环节。在舱室布置中,要考虑几何约束和功能约束。传统的舱室布置方法需要设计人员
随着汽车产业的快速发展,我国已经成为世界汽车第一产销大国。随着经济的发展、城市规模的扩大,机动车保有量的迅猛增加。据公安部交管局发布的最新数据,截止2012年6月底,全国机
在分析土地利用分区基本目标和任务的基础上,探讨了土地利用分区体系,明确了不同尺度土地利用分区的功能及侧重点,并辨析了土地利用分区与其它相关区划的区别与联系。总体来
第一部分乳腺癌新辅助化疗前后的临床病理学研究目的:(1)采用实体瘤疗效评价标准(RECIST)、NSABP B-18分级系统、Miller-Payne分级系统、Sataloff淋巴结分级系统分别对接受PC
<正> 改编自通俗文学大师张恨水小说的同名电视剧《金粉世家》,由青年导演李大为执导,人气偶像明星董洁陈坤联袂主演,去年在中央电视台黄金时段播出。它以众多的帅男靓女,豪
<正>阿图尔·施纳贝尔这个名字对了爱乐者来说应该算得上如雷贯耳了吧!他是二十世纪上半叶乐坛上最伟大的钢琴家之一,他不仅是那个时代演奏并录制了贝多芬全部三十二首钢琴奏
<正>英文写作能力是全面反映学生综合运用语言技能的一种重要方式,但英文写作能力的提高不是独立的,教师可借助教材阅读,引导学生主动进行写作练习,把阅读技巧用到写作中。本