基于领域知识的时空异常气候模式挖掘研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jwc4542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国处于东亚季风区,主要受来自西伯利亚高压的冬季风和北太平洋高压的西部边缘吹向亚洲东部的夏季风影响。季风的年不均衡性是我国气候灾害形成的主要原因,有重要的研究意义。东亚季风的不均衡,通常会出现一些有趣的模式,例如,夏季风从我国沿海地区吹向我国的内陆地区,夏季风的强弱、所带水汽的多少,直接影响我国的降水量,所以在夏季风所带水汽多的年份,往往我国沿海地区降水多,内陆地区的降水也多;而夏季风所带水汽多,且势力很强的年份,可以把大量水汽带到内陆,使得内陆降水多,而沿海降水则偏少。因此,挖掘这种时空模式有助于发现隐含在现象背后的知识,揭示尚未被领域专家发现的规律,帮助提高预测的能力。   本论文主要是从时空模式挖掘的角度来研究我国东亚季风区的异常气候,研究方法和成果包括以下四个方面的内容:   1.基于紧密类簇的空间聚类。   空间聚类是为了减少分析对象的数目,降低复杂度,使结果更有代表性。由于东亚季风区的覆盖面积大,所对应的数据量也很庞大,给计算带来了很大的困难,同时考虑到气候影响的范围往往不是单一的点,而是大范围的区域,因此可以利用聚类算法,将气候属性相似、气候变化趋势类似的点聚到同一个类中,只对类进行分析。已有的研究结果证明,高质量的类簇有助于进一步挖掘出具有重要意义的模式。传统的聚类方法并没有考虑时空数据的过程变化特征,只是考虑属性维的距离,而本文提出的紧密类簇聚类算法则综合考虑了气候的属性维和变化过程趋势的差异,作为相似性度量指标,在此基础上进行紧密类簇的聚类,即要求类中对象两两之间都相似,从而取得条件更加严格的聚类结果。   2.异常气候事件的提取。   提取异常气候是为了下一步骤进行频繁模式挖掘提供数据集。气候领域往往通过灾害的频率来刻画灾害的程度,如十年一遇,五十年一遇。本文提出的异常气候事件提取算法结合领域知识,通过排序算法,找出指定的前n个极值,并滤去跟正常值相差不大的极值点。此外,考虑到同一原因引起异常气候的在空间范围和时间间隔上作用面积往往不是已有聚类的时空划分,因此对每一个异常气候事件进行动态的时空合并,避免重复计算。   3.异常气候的频繁模式挖掘。   相比正常年份的气候模式,异常气候之间的关联性更强,挖掘所得到的频繁模式通常更有意义,这也正是领域专家所更加关注的。传统的序列关联挖掘方法适用于挖掘各个地区共同的模式,而不是挖掘地区之间关系的模式。本论文主要针对经典的广义序列模式(GSP)算法进行扩展,应用在气候异常频繁模式挖掘领域。结合东亚季风区的领域知识,利用改进的广义序列模式算法来挖掘南方-北方等地区之间的关系模式。   4.实际数据的实验及原型系统的设计与实现。   在真实的数据集进行了实验,挖掘出有趣的模式,得出有益的结论。这些模式、结论是否有用,还需进一步研究领域知识,或者请教领域专家。该原型系统是在Eclipse平台上,使用Java语言进行开发的。   总体而言,本论文所提出的方法是一种新颖的解决问题的途径,可以作为领域专家研究我国气候灾害的辅助手段。
其他文献
无线传感器网络因具备获取和传输工作区域内目标信息的能力受到越来越多的关注与应用。拓扑控制为各节点选择适当的邻居节点,有效地降低了网络的通信能耗以延长网络的生存时
RFID即射频识别技术是一项正在蓬勃发展中的技术。RFID技术通过射频信号自动识别目标对象并获取相关数据,对带有标签的目标物体进行定位和跟踪。在物流和供应管理、生产制造和
我国有不少橘园建在山坡地上,有为数不少的山地橘园没有机动车道,肥料等农资和果品的运输都是依靠人力来完成的,人工运输方式运送效率低,劳动强度大,成本高。简易的工程索道凭借其
本文从网页质量的角度出发,以用户的浏览体验为依据,构建了网页质量评估模型。文章使用TREC的GOV2作为实验的数据源,构建GOV2上的检索系统作为实验平台,检索系统的构造包括DOM树
猪舍是猪只活动的场所,为猪只提供适宜的舍内环境,能充分发挥猪只生产潜力和保证猪只的健康生长。但是长期以来,国内的猪舍环境监控方式仍以人工为主,这种传统的监控方式具有自动
当前,对业务流程管理的重视正在影响着信息系统的构建方式。业务流程模型在信息系统构建中的地位越来越重要,同时数据模型描述了业务数据,是信息系统重要的结构模型。在很多情况
维基百科是一个自由免费、内容开放的百科全书协作计划,目前发展极为迅速。它作为人工参与构建的数据,用户参与程度高,质量好,规模大,已经成为用户检索的重要信息来源。现有的对百
随着处理器频率的提高,处理器与存储系统之间的性能差异越来越大。存储层次的设计,成为计算机系统设计中的重要研究对象。现代微处理器通常使用MMU来对内存空间进行管理。如何
目前,关于数据流系统的研究在传感器网络、金融分析、网络流量监测等领域有着大量应用。而针对数据流本身快速、连续、时变、瞬时等特性,如何为数据流管理系统设计一个具有自适
随着中文信息处理技术的迅猛发展,人们对汉字的信息化需求日益增加。在信息化系统中汉字用一个编码代替,可以实现信息的记录、检索等各种功能。但是,对于汉字本身的信息处理(如