论文部分内容阅读
近年来中国大气环境质量问题频现,以PM2.5为主要代表的大气污染物对人体健康以及大气环境造成了很大危害。大气污染问题涉及多个层面,影响因素众多,需要对PM2.5地面监测数据、气象数据、卫星遥感数据及污染源等海量数据进行分析处理才能得出正确结论。因此,大气污染的监测中海量数据的分析处理成为了关键。大数据技术为解决上述问题提供了一种新思路,利用大数据技术解决大气污染数据集成、存储以及信息挖掘,成为大气污染领域的研究热点。我国虽已建成全国性PM2.5地面监测网络,但由于地面站点分布不均,对高密度、宽覆盖的大气污染监测数据进行采集处理,成为大气污染领域又一研究热点。为了解决大气污染数据的采集、存储、分析以及应用问题,设计了基于Hadoop与Spark的大气污染大数据平台,并针对地面站点数据空间分布不均的问题,通过引入AOD(Aerosol Optical Depth)数据实现了中国区域的PM2.5应用研究。主要工作有以下几个方面:(1)大气污染平台的设计与实现。首先针对大气污染大数据平台中的分布式采集框架、分布式文件系统、分布式并行计算框架等相关技术开展研究。然后对大气污染大数据平台进行需求分析,设计能够满足不同数据源采集、海量大气数据存储以及不同应用场景数据分析的大数据平台架构。之后集成Hadoop与Spark构建了大气污染大数据平台,采用Flume与Kafka从多源的前端服务器完成数据的分布式采集;通过Spark Streaming与Kafka相结合方式,将Kafka缓冲区中实时流入的数据进行处理和计算;利用HDFS与HBase完成数据分布式存储,并针对大气污染数据的特性对Row Key进行了重新设计,对其存储进行了优化。整合各大数据组件完成了集群环境的搭建,设计并实现了具有4层结构的大气污染大数据平台,包括数据采集和预处理模块、数据存储模块、数据分析模块以及数据可视化模块。(2)PM2.5估算及预测算法的研究与设计。对集成学习框架Bagging和Boosting进行比较,针对两种不同集成框架的特点,基于文中所涉及到随机森林、GBRT和XGBoost算法,结合大气污染数据特征,利用各自算法的特点和优势,融合三种算法对模型进行优化,设计了多模型融合算法,并应用于大气污染大数据分析引擎中。通过仿真测试结果表明多模型融合算法各方面性能均优于随机森林、GBRT和XGBoost三种算法,进一步提升了模型精度,证明了该算法对大气污染数据分析的有效性。(3)将PM2.5的估算及预测算法应用于大气污染大数据平台的数据分析中。进行了地面PM2.5浓度估算与地面PM2.5浓度逐小时预测,测试了大气污染大数据平台的各项功能,并通过对预测结果的时空分析验证了算法的准确性。通过中国环境监测总站2016年里1497个站点的地面PM2.5数据测试,证明平台的各项功能可以满足PM2.5的小时级预测与估算,实现了 PM2.5浓度变化的实时监测。通过实践表明平台各功能模块工作正常高效,运行稳定,能满足大气污染数据集成、数据存储和数据分析的需求,平台为有效防范大气污染提供了科学决策的依据。