论文部分内容阅读
高寒草地生态系统是我国海拔最高、面积最大的生态系统,也是我国最重要的畜牧业基地之一。由于高寒生态系统的敏感性,全球气候变化和人类活动的影响,近年来高寒草地生态系统开始退化加速。解决高寒草地的退化问题需要对高寒草地退化现状进行综合评价,并针对性的提出退化草地的治理对策,而高寒草地退化的定量分析需要相关数据作为支持。近年来,我国在高寒草地生态系统监测、草地生态修复方面进行了大量的工作,使得高寒草地的监测数据也迅速增长。大规模的高寒草地数据中包含着气象观测、水土保持、草地特性、样方监测、资源统计、水质评价等各方面的信息,通过对海量数据进行挖掘及综合分析,能够为政策制定及科学决策提供参考。基于海量数据的草地退化评价的基础在于数据的存储与分析,因此,对高寒草地的海量数据进行可靠存储和高效分析有着重要意义。本文以高寒草地海量数据存储与分析为需求,对基于Hive的高寒草地海量数据分析系统进行整体设计,并对系统进行具体的实现。首先,通过节点配置、集群配置、Hadoop组件配置等步骤完成对Hadoop、Hive、Sqoop环境的独立部署,实现对系统基础平台的搭建。然后,通过使用EM算法进行数据填充、导入数据、数据分区存储等步骤完成数据ETL及数据存储。之后,通过函数编码实现系统内各查询功能、分析功能,将数据分析结果进行后置处理,完成高寒草地海量数据分析系统的实现。最后,进行系统性能测试,通过实验的方式,对系统的各项性能进行测试,评估系统的价值。主要实验结果如下:(1)Hadoop平台数据存储、读取性能测试。在文件数量为10个,文件大小增加时,总体数据规模的增大,系统整体存储、读取时间一直处于增长的状态,但是平均运行时间(平均处理1MB数据所使用的时间)处于降低的趋势,说明随着数据量的增加,系统并行处理海量数据的能力得到体现。(2)数据查询效率测试。使用2014年青海省称多县草地样方监测数据和部分虚拟数据,总数据量约为3958万条(7.56GB),对Hive集群以及关系型数据库SQL server进行数据查询的效率进行对比。结果显示,当查询数据量为3958万条时,Hive集群数据查询的时间为SQL server的67.8%。说明随着数据量的增加,系统数据查询的效率比SQL server更高。本文使用分布式数据仓库技术应用于高寒草地海量数据的存储与分析,较传统的数据存储与分析技术相比有明显的进步。本系统对海量数据处理效率高,可开发性强,采用的设计方法和设计思路是可行的,可以很好的满足海量高寒草地数据的存储和分析要求。