论文部分内容阅读
我国处于东亚季风区,主要受来自西伯利亚高压的冬季风和北太平洋高压的西部边缘吹向亚洲东部的夏季风影响。季风的年不均衡性是我国气候灾害形成的主要原因,有重要的研究意义。东亚季风的不均衡,通常会出现一些有趣的模式,例如,夏季风从我国沿海地区吹向我国的内陆地区,夏季风的强弱、所带水汽的多少,直接影响我国的降水量,所以在夏季风所带水汽多的年份,往往我国沿海地区降水多,内陆地区的降水也多;而夏季风所带水汽多,且势力很强的年份,可以把大量水汽带到内陆,使得内陆降水多,而沿海降水则偏少。因此,挖掘这种时空模式有助于发现隐含在现象背后的知识,揭示尚未被领域专家发现的规律,帮助提高预测的能力。
本论文主要是从时空模式挖掘的角度来研究我国东亚季风区的异常气候,研究方法和成果包括以下四个方面的内容:
1.基于紧密类簇的空间聚类。
空间聚类是为了减少分析对象的数目,降低复杂度,使结果更有代表性。由于东亚季风区的覆盖面积大,所对应的数据量也很庞大,给计算带来了很大的困难,同时考虑到气候影响的范围往往不是单一的点,而是大范围的区域,因此可以利用聚类算法,将气候属性相似、气候变化趋势类似的点聚到同一个类中,只对类进行分析。已有的研究结果证明,高质量的类簇有助于进一步挖掘出具有重要意义的模式。传统的聚类方法并没有考虑时空数据的过程变化特征,只是考虑属性维的距离,而本文提出的紧密类簇聚类算法则综合考虑了气候的属性维和变化过程趋势的差异,作为相似性度量指标,在此基础上进行紧密类簇的聚类,即要求类中对象两两之间都相似,从而取得条件更加严格的聚类结果。
2.异常气候事件的提取。
提取异常气候是为了下一步骤进行频繁模式挖掘提供数据集。气候领域往往通过灾害的频率来刻画灾害的程度,如十年一遇,五十年一遇。本文提出的异常气候事件提取算法结合领域知识,通过排序算法,找出指定的前n个极值,并滤去跟正常值相差不大的极值点。此外,考虑到同一原因引起异常气候的在空间范围和时间间隔上作用面积往往不是已有聚类的时空划分,因此对每一个异常气候事件进行动态的时空合并,避免重复计算。
3.异常气候的频繁模式挖掘。
相比正常年份的气候模式,异常气候之间的关联性更强,挖掘所得到的频繁模式通常更有意义,这也正是领域专家所更加关注的。传统的序列关联挖掘方法适用于挖掘各个地区共同的模式,而不是挖掘地区之间关系的模式。本论文主要针对经典的广义序列模式(GSP)算法进行扩展,应用在气候异常频繁模式挖掘领域。结合东亚季风区的领域知识,利用改进的广义序列模式算法来挖掘南方-北方等地区之间的关系模式。
4.实际数据的实验及原型系统的设计与实现。
在真实的数据集进行了实验,挖掘出有趣的模式,得出有益的结论。这些模式、结论是否有用,还需进一步研究领域知识,或者请教领域专家。该原型系统是在Eclipse平台上,使用Java语言进行开发的。
总体而言,本论文所提出的方法是一种新颖的解决问题的途径,可以作为领域专家研究我国气候灾害的辅助手段。