论文部分内容阅读
高效的数据管理系统对于数据应用管理非常重要,然而数据规模的持续增长、数据类型的不断变化、非结构化数据成为存储和处理对象等因素,逐渐动摇了传统关系数据库的主导地位,仅仅使用传统关系数据库已经不能很好地解决上述问题,不能满足经济有效的存储、分析和访问数据。Hadoop由于对底层存储和并行处理透明化,同时拥有高性能的集群计算和存储能力,在分布式计算和大量数据处理方面脱颖而出。然而使用Hadoop平台对大数据进行处理,并实现高效率查询,需要对Hadoop与关系型数据库之间进行数据的迁移,将数据导入到Hadoop中进行分析处理,使用Hadoop来优化数据库核心工作效率及数据库性能、完成不断更新的查询需求。本文在讨论研究Hadoop平台相关架构及数据交换原理的基础上,对基于Hadoop平台的数据迁移提出了MapReduce技术的实现方案,MapReduce可以实现更优的并发性,从而可以体现优化数据转换的能力。首先深入分析MapReduce工作机制,及Hadoop三种常用的作业调度器。在此基础上,对MapReduce的作业调度器进行优化设计,将公平调度器与优先权(高响应比优先)调度算法相结合,提出了基于优先权的公平调度器的改进算法,同时以TaskTracker的负载均衡监听器辅助进行调度工作。然后分析HBase和Hive各自的工作机制,对Hive-HBase相结合的数据查询方法进行探讨,设计了一个基于Hive-HBase的数据查询方案。最后,搭建实验环境对基于Hadoop平台的数据迁移及数据查询进行实验与分析,对比基于不同调度算法的迁移性能,以及对比原系统与Hive-HBase相结合的查询方案二者进行数据查询的效率。经过实验分析,验证了本文构建基于Hadoop平台包括数据迁移和查询的完整数据处理的方案是可行的。数据迁移过程中对调度算法的优化提高了数据迁移性能,同时,使用Hadoop平台对大数据进行处理与传统关系数据库相比,在查询效率上体现其优势。因此,本文在对大数据进行处理上有一定参考价值。