论文部分内容阅读
机器学习作为一门涉及众多数学和计算机学科的经典交叉学科,其理论与方法已经被工程界和科学界广泛应用于复杂的工程或领域问题。在经过大半个世纪的曲折发展后,以深度学习、集成学习、贝叶斯学习、支持向量机等为代表的机器学习算法的自适应、自学习式的信息分析处理机制,在医学、农学、军事学,尤其是计算机视觉和自然语言处理等领域都获得了突破性进展。海洋科学方向是机器学习方法研究与应用的一个新兴方向,而物理海洋学是该方向研究的一个分支。随着各国对海洋研究的大量投入以及海洋物理观测工具和手段的不断提升,海洋中越来越多的物理信息正在被我们所掌握,因此基于数据驱动型的研究方法开始广泛流行于物理海洋学研究之中。如何有效利用观测到的现有海洋物理信息去预测未观测点的信息,是海洋科学和计算机信息处理研究人员有待解决的难题之一。本文将介绍利用层次聚类、随机森林、变分自编码器等机器学习方法,深入研究海洋温度的空间分布规律,力求通过机器学习方法提高现有海洋水温数据的空间分辨率,为进一步的海洋温跃层研究提供数据支撑。本文的主要研究内容为:(1)针对现有海洋水温模型低分辨率问题,提出了一种基于层次聚类和随机森林的高分辨率海洋水温方法,用于细粒度化现有海洋水温数据空间分布。该方法首先对数据集进行归一化处理,以消除量纲的不同对实验造成的影响。其次,我们采用自底向上的聚合策略进行层次聚类,将数据划分为五类。最后,对于划分出的每一个类,我们采用网格化搜索的方法寻找随机森林模型的最佳参数并为其构建随机森林模型。在典型的海洋水温数据集BOA_Argo数据集上的实验结果表明,本文提出的模型的预测准确度比传统随机森林模型有着很好的提升,特别是在聚类划分出的某些局部海域,模型准确度能提升10倍左右。通过对原始数据和细粒度化后的数据进行海洋温度梯度值分析计算,一些在原始数据分布中不能被找到的较薄的温跃层被反演识别,进一步确定了该区域的温跃层分布形态。(2)针对海洋水温数据的另一个稀疏性、不平衡性问题,提出了一种基于变分自编码器的高分辨率海洋水温方法。该方法将监督学习和无监督学习相结合,首先以数据集中海洋水温的垂直观测值为输入向量,利用非监督学习方法变分自编码器学得海洋水温在垂直观测层上的概率分布;然后,利用学得的变分自编码器网络构建一个启发式网络,用于解决数据集中的样本不平衡性问题;最后将启发式网络和深度学习回归网络相结合,解决数据集中样本稀疏性问题。实验结果表明,本文所提模型与简单海洋水温预测深度回归学习模型相比预测准确度提高了约0.084,约47.8%,从一定程度上能够缓解数据集样本不平衡性问题;本模型理论上可将海洋水温的空间分辨率提升至任意程度。