基于Hive的物流数据仓库研究与实现

被引量 : 14次 | 上传用户:dbfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据技术的发展和应用,Hadoop已经得到学术界和工业界的广泛认可。Hive作为构建于Hadoop集群之上的开源数据仓库应用,具备模式自由、高可扩展性和高容错性的特点,能够很好地满足企业级数据仓库的需求。因此,越来越多的物流企业开始考虑如何利用Hive数据仓库带来的优势,完善自身的信息化建设。本文以某物流信息系统软件公司(以下称DK公司)的智慧物流大数据平台项目为背景,在充分研究物流公司业务需求的基础上,对基于Hive的物流数据仓库进行了总体架构设计,同时选择了开发语言,并分析了实现方法。针对物流企业数据仓库扩展性不好、运行自动化程度不高、处理大规模数据效果较差等问题,在对基于Hive的物流数据仓库进行分析和设计的基础上,本文提出物流数据仓库的具体实现方案,该数据仓库结合高校云平台虚拟化技术,能够提供高可扩展性。另外,数据仓库的数据抽取转换加载过程和数据查询分析处理过程能够满足自动化需求,不需要任何人工干预。并且利用MapReduce并行计算的优势,能够很好地支持大规模物流数据的处理。本文首先对国内外现状和大数据相关技术进行介绍,主要对比了Hive数据仓库和关系型数据库,研究了Hive数据仓库的优缺点,并提出其适用场景。然后,以DK公司智慧物流大数据平台项目为背景,对基于Hive的物流数据仓库进行需求分析和系统架构设计,提出实现该数据仓库的技术方案。进而基于学校云平台,部署了Hadoop、Sqoop和Hive环境,搭建了基于虚拟化技术的大数据处理平台,同时,基于此平台,从数据ETL和数据查询分析处理两方面实现了基于Hive的物流数据仓库,包括数据仓库的可扩展性研究、自动化多线程ETL脚本编写及其最佳线程数研究、Hive数据存储分析、Hive数据前置处理、查询分析处理、后置处理脚本实现。最后通过Hive数据仓库运行效果,评估了本项目的价值,从不同业务角度证明了该系统能够很好地支持企业管理层决策。
其他文献
本文以“荔景苑”作为案例,着重分析房地产项目的市场营销策略。 案例部分,介绍了东浚集团的背景与历程以及“荔景苑”项目由开发到销售的全程实录;案例分析部分,分析了该项目
通过对洛阳分公司炼油厂LG-30/0.8型喷水螺杆压缩机振动原因的分析,经采取相应改进措施,机组振动烈度降至允许范围内,确保了机组及时安全投用,产生了良好的经济效益和社会环
本文主要说明了新媒体的基本概念及特点,解释了大学生思想政治教育在新媒体背景下开展的基本概念,阐述了大学生思想政治教育在新媒体背景下开展所面临的主要问题,指出了一系
韩国是世界上生活水平相对较高的国家,但却面临着粮价居高不下、粮食自给率不足、对外依存度偏高等影响粮食供给安全性、稳定性的问题,其原因在于韩国粮食供需链中供给、需求
课堂教学,是数学教学的主阵地。要让学生真正学好数学,就要打造精品课堂,为此要激发学生对数学的兴趣,建立和谐的师生关系,精心做好课前准备工作,极力优化教学过程,充分利用
对学校作业管理中存在的问题进行了分析,提出了一套基于当前流行的ASP.NET技术的学生作业管理系统的设计方案并加以实现.该系统简单、直接,很好地实现了学生作业的上传与查阅
此番案件昭示出,刷单炒信不再有利可图,不仅违法获利必须尽数吐出,还得付出多年牢狱的代价。让违法成本远大于违法获益,这是非常重要的司法矫正。$$建立刷单炒信平台,在淘宝网站吸
报纸
国际互联网络的出现,标志着人类在信息革命上的又一次飞跃。这一最初用于军事目的的神奇发明,在过去的近二十年时间里,由于一直被限定在军事、科研等领域;自九十年代初与商业“结
建设工程价款优先受偿权作为法定抵押权,其主体为建设工程施工承包人;担保范围仅限于承包人的实际支出费用;担保标的仅限于与建造工程债权有牵连关系的不动产标的物。同时,"
由于2007年美国次贷危机引致全球性金融危机,发达国家纷纷施行较为宽松的货币政策,美、日两国更是明确提出且连续启动多轮非常规的量化宽松货币政策,以期恢复本国经济。美、