论文部分内容阅读
聚类知识挖掘技术作为数据挖掘的一个重要研究方向,重点揭示事物和现象的集聚分布模式,其不仅可以作为一个独立的数据挖掘工具,还可以结合其他数据挖掘方法开展更深入的知识挖掘,目前己成为数据挖掘研究中的热点课题之一。目前,已有不少学者开展了聚类知识挖掘方面的研究,然而现有研究通常存在如下几点不足。首先,现有方法只是判断目标集是否为一类,但并未对类别合理性和显著性进行判别;其次,现有方法通常需依赖先验知识对预设参数值进行设置,然而聚类知识挖掘算法做为一个普适性的空间分析工具,用户在聚类知识挖掘过程中通常没有足够的先验知识;另外,现有复杂的地学数据集聚分布知识通常存在噪声干扰,空间异质分布、形状和密度各异等特征,现有算法通常难以同时顾及上述特征开展聚类知识挖掘。基于上述问题,本文进一步结合聚类知识对尺度的强依赖性问题,开展顾及尺度驱动的聚类知识挖掘方法和应用研究,具体研究内容如下:首先提出一套聚类知识挖掘模式,为顾及尺度驱动的聚类知识挖掘提供理论基础与分析框架;其次,开展一系列顾及尺度驱动的聚类知识挖掘算法的研究,并以改进的顾及尺度驱动的聚类知识挖掘算法为技术手段,在聚类知识挖掘模式的指导下,开展一系列聚类知识挖掘应用。其中顾及尺度驱动的聚类知识挖掘算法根据数据类别的不同可分为顾及尺度驱动的双重聚类知识挖掘算法、顾及尺度驱动的时序聚类知识挖掘算法以及顾及尺度驱动的多元关联关系聚类知识挖掘算法。对聚类知识挖掘过程进行概括与构想,构建聚类知识挖掘模式。该模式涉及聚类知识挖掘的全过程,综合考虑了聚类知识挖掘变量的设计、挖掘单元的划分、挖掘数据的转换与存储、挖掘过程以及挖掘结果的可视化。本文构建的聚类知识挖掘模式具有较强的普适性,能够完整的描述从基础数据到聚类知识可视化表达的全过程。开展顾及尺度驱动的双重聚类知识挖掘算法研究。该算法综合考虑了聚类知识对尺度的依赖性,聚类知识挖掘过程中先验知识缺乏,类别受噪声和障碍等约束的影响等问题,实现显著的空间邻近,非空间属性相近的类别的探测。另外,本文提出的改进的顾及尺度驱动的双重聚类知识挖掘算法能够探测任意形状和密度的类别,且适用于在不均匀分布的数据中挖掘潜在的空间邻近,非空间属性分布相似的类别。最后,以模拟数据和实例数据对算法进行验证。在实例应用中,以分析武汉市小区房价的空间分异规律为挖掘目标,结果表明武汉市小区房价分布呈现明显的双核辐射分布特征,以长江和东湖为核心,小区房价向四周呈现辐射递减的趋势。开展顾及尺度驱动的时序聚类知识挖掘算法研究。已有时序聚类知识挖掘算法通常未能在顾及地理要素的空间异质性特征且现有时序聚类知识挖掘算法对先验知识具有很强的依赖性,因此本文在同时顾及空间属性、非空间属性值和非空间属性趋势的基础上,提出改进的顾及尺度驱动的时序聚类知识挖掘算法,开展自适应的时序聚类知识挖掘。根据数据结构的不同,分别对栅格数据和矢量数据开展顾及尺度驱动的时序聚类知识挖掘算法的研究。顾及尺度驱动的时序聚类知识挖掘算法从多尺度层次开展聚类知识挖掘,采用聚类知识评价方法,获取显著尺度的聚类知识,上述策略使得本文提出的改进的时序聚类知识挖掘算法能够自适应的获取空间邻近、非空间属性值和属性趋势相似的类别。最后以本文提出的顾及尺度驱动的聚类知识挖掘算法为挖掘技术手段,以全国降雨时序数据为例开展模式挖掘,结果表明全国降雨呈现显著的区域特征,且西北部地区降雨量少,且年间降雨总量波动小,而东部和南部地区,降雨量大,且年间降雨总量波动大,并且从类别间提取出的显著分异线与全国的半干旱半湿润分割线保持一致;以宁波市地表变形为例,挖掘的聚类知识表明宁波市主城区呈现地表缓慢上升的趋势,而重点开发建设区域以及围填海区域呈现显著的不均匀形变的特征,大面积开发区域在建成后的20年内基本处于稳步下沉的状态,上述模式的挖掘为地表变形机理分析奠定了良好的基础。开展顾及尺度驱动的多元关联关系聚类知识挖掘算法研究。顾及尺度驱动的多元关联关系聚类知识挖掘算法通过采用层次策略分别对空间属性和非空间属性关联关系进行聚类,首先采用PSO优化算法和Delaunay三角网,获取最优空间尺度的目标之间的邻接关系,然后融合Apriori算法和改进的基于密度的聚类算法,获取显著的多元关联关系集聚性分布区域。采用模拟数据进行算法验证,结果表明本文提出的改进的多元关联关系聚类知识挖掘算法能够自适应的获取多元关联关系在空间的显著分布区域。采用顾及尺度驱动的多元关联关系聚类知识挖掘算法开展土壤元素受环境因素影响的空间集聚性分布区域的挖掘,结果表明研究区内土壤元素分布受环境因素影响显著,基于该结论,进一步改进预测模型构建时校正集样本选择方法,选取具有多元代表性(包括环境代表性)的样本,构建预测模型,结果表明改进的方法能够更高精度的实现预测分析。总之,本文旨在自适应的获取显著尺度的集聚性分布知识。首先提出具有普适性的聚类知识挖掘模式,以挖掘模式为指导,开展顾及尺度驱动的聚类知识挖掘算法及应用的研究。其中聚类知识挖掘算法根据数据类别的不同分为顾及尺度驱动的双重聚类知识挖掘模型、顾及尺度驱动的时序聚类知识挖掘模型以及顾及多元关联关系聚类知识挖掘模型。