论文部分内容阅读
近年来,随着大数据技术的发展和应用,Hadoop已经得到学术界和工业界的广泛认可。Hive作为构建于Hadoop集群之上的开源数据仓库应用,具备模式自由、高可扩展性和高容错性的特点,能够很好地满足企业级数据仓库的需求。因此,越来越多的物流企业开始考虑如何利用Hive数据仓库带来的优势,完善自身的信息化建设。本文以某物流信息系统软件公司(以下称DK公司)的智慧物流大数据平台项目为背景,在充分研究物流公司业务需求的基础上,对基于Hive的物流数据仓库进行了总体架构设计,同时选择了开发语言,并分析了实现方法。针对物流企业数据仓库扩展性不好、运行自动化程度不高、处理大规模数据效果较差等问题,在对基于Hive的物流数据仓库进行分析和设计的基础上,本文提出物流数据仓库的具体实现方案,该数据仓库结合高校云平台虚拟化技术,能够提供高可扩展性。另外,数据仓库的数据抽取转换加载过程和数据查询分析处理过程能够满足自动化需求,不需要任何人工干预。并且利用MapReduce并行计算的优势,能够很好地支持大规模物流数据的处理。本文首先对国内外现状和大数据相关技术进行介绍,主要对比了Hive数据仓库和关系型数据库,研究了Hive数据仓库的优缺点,并提出其适用场景。然后,以DK公司智慧物流大数据平台项目为背景,对基于Hive的物流数据仓库进行需求分析和系统架构设计,提出实现该数据仓库的技术方案。进而基于学校云平台,部署了Hadoop、Sqoop和Hive环境,搭建了基于虚拟化技术的大数据处理平台,同时,基于此平台,从数据ETL和数据查询分析处理两方面实现了基于Hive的物流数据仓库,包括数据仓库的可扩展性研究、自动化多线程ETL脚本编写及其最佳线程数研究、Hive数据存储分析、Hive数据前置处理、查询分析处理、后置处理脚本实现。最后通过Hive数据仓库运行效果,评估了本项目的价值,从不同业务角度证明了该系统能够很好地支持企业管理层决策。