论文部分内容阅读
在大数据时代,数据量的爆炸式增长让传统人工处理方法无法应对。而数据挖掘技术可以快速高效发现数据内的潜在模式和知识,其中,聚类算法作为一种常用的数据处理方式已经广泛应用于数据处理过程之中,其目标为从不含类别标签的数据中提取知识,发现数据间潜在关联并将其归类。作为一种海洋中普遍存在的现象,中尺度涡每天会产生大量的数据,无论是对中尺度涡的探测还是跟踪的研究中,较早的中尺度涡研究方法大多都是采用人工探测和追踪的方法对数据进行处理,其处理效率低下。但通过人工处理数据的再复现算法通常会出现各种缺点,而使用数据挖掘算法对海洋数据进行处理可以有效提高处理效率。因此,研究利用数据挖掘算法的中尺度涡探测和中尺度涡追踪算法,具有十分重要的理论意义和实践价值。本文重点关注密度聚类问题。详细分析现有密度聚类算法优缺点,在众多中尺度涡研究工作的基础之上,改进密度聚类算法,并将其应用于海洋中尺度数据处理。本文主要贡献如下:(1)提出了基于最小生成树的密度聚类算法。传统的密度聚类算法通常使用固定的全局参数,因此无法应对密度稀疏区域的样本处理工作。本文基于图论中的最小生成树方法,以密度为评价指标对数据集进行划分,通过对最小生成树进行剪枝处理发现簇间的潜在联系,实现对数据集内相似密度的簇做邻近化处理。(2)提出了一种基于k近邻图的密度聚类算法。现有密度聚类算法通常需要至少两个参数来保证聚类过程的顺利进行,并且参数的设定大多为非整数,参数测试过程较为复杂。通过构建k近邻图,筛选有效的相似度信息,以参数自适应的方法减少算法参数设置阶段的测试复杂度,同时保证算法的有效性。(3)提出了一种结合密度聚类的中尺度涡探测算法。在中尺度涡探测过程中,利用密度聚类对不规则簇的良好适应性,对去除非涡旋区域后的数据集进行密度聚类,筛选出潜在的中尺度涡数据集,通过加入稳定性判定条件保证结果的稳定性,进而寻找出符合要求的闭合等值线。以上方法消除了现有算法中阈值设定敏感度问题和参数设置需要进行敏感度测试的问题,同时解决了结果筛选不稳定的缺点。(4)提出了一种基于时间尺度的密度聚类的中尺度涡追踪算法。利用密度聚类可以分离样本稠密区域与稀疏区域的特点,通过添加时间尺度限制和振幅限制改变距离矩阵,将中尺度涡轨迹与环境区域进行分离,找出潜在的运动轨迹。针对出现时间冲突的路径,结合卡尔曼滤波方法剔除噪声点,提高追踪过程的准确度。通过以上方法,消除了现有算法处理过程中因串行问题导致的局部最优问题,同时提高了算法的批处理能力和运算速度。