顾及尺度驱动的聚类知识挖掘方法及应用

来源 :武汉大学 | 被引量 : 1次 | 上传用户:samallhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类知识挖掘技术作为数据挖掘的一个重要研究方向,重点揭示事物和现象的集聚分布模式,其不仅可以作为一个独立的数据挖掘工具,还可以结合其他数据挖掘方法开展更深入的知识挖掘,目前己成为数据挖掘研究中的热点课题之一。目前,已有不少学者开展了聚类知识挖掘方面的研究,然而现有研究通常存在如下几点不足。首先,现有方法只是判断目标集是否为一类,但并未对类别合理性和显著性进行判别;其次,现有方法通常需依赖先验知识对预设参数值进行设置,然而聚类知识挖掘算法做为一个普适性的空间分析工具,用户在聚类知识挖掘过程中通常没有足够的先验知识;另外,现有复杂的地学数据集聚分布知识通常存在噪声干扰,空间异质分布、形状和密度各异等特征,现有算法通常难以同时顾及上述特征开展聚类知识挖掘。基于上述问题,本文进一步结合聚类知识对尺度的强依赖性问题,开展顾及尺度驱动的聚类知识挖掘方法和应用研究,具体研究内容如下:首先提出一套聚类知识挖掘模式,为顾及尺度驱动的聚类知识挖掘提供理论基础与分析框架;其次,开展一系列顾及尺度驱动的聚类知识挖掘算法的研究,并以改进的顾及尺度驱动的聚类知识挖掘算法为技术手段,在聚类知识挖掘模式的指导下,开展一系列聚类知识挖掘应用。其中顾及尺度驱动的聚类知识挖掘算法根据数据类别的不同可分为顾及尺度驱动的双重聚类知识挖掘算法、顾及尺度驱动的时序聚类知识挖掘算法以及顾及尺度驱动的多元关联关系聚类知识挖掘算法。对聚类知识挖掘过程进行概括与构想,构建聚类知识挖掘模式。该模式涉及聚类知识挖掘的全过程,综合考虑了聚类知识挖掘变量的设计、挖掘单元的划分、挖掘数据的转换与存储、挖掘过程以及挖掘结果的可视化。本文构建的聚类知识挖掘模式具有较强的普适性,能够完整的描述从基础数据到聚类知识可视化表达的全过程。开展顾及尺度驱动的双重聚类知识挖掘算法研究。该算法综合考虑了聚类知识对尺度的依赖性,聚类知识挖掘过程中先验知识缺乏,类别受噪声和障碍等约束的影响等问题,实现显著的空间邻近,非空间属性相近的类别的探测。另外,本文提出的改进的顾及尺度驱动的双重聚类知识挖掘算法能够探测任意形状和密度的类别,且适用于在不均匀分布的数据中挖掘潜在的空间邻近,非空间属性分布相似的类别。最后,以模拟数据和实例数据对算法进行验证。在实例应用中,以分析武汉市小区房价的空间分异规律为挖掘目标,结果表明武汉市小区房价分布呈现明显的双核辐射分布特征,以长江和东湖为核心,小区房价向四周呈现辐射递减的趋势。开展顾及尺度驱动的时序聚类知识挖掘算法研究。已有时序聚类知识挖掘算法通常未能在顾及地理要素的空间异质性特征且现有时序聚类知识挖掘算法对先验知识具有很强的依赖性,因此本文在同时顾及空间属性、非空间属性值和非空间属性趋势的基础上,提出改进的顾及尺度驱动的时序聚类知识挖掘算法,开展自适应的时序聚类知识挖掘。根据数据结构的不同,分别对栅格数据和矢量数据开展顾及尺度驱动的时序聚类知识挖掘算法的研究。顾及尺度驱动的时序聚类知识挖掘算法从多尺度层次开展聚类知识挖掘,采用聚类知识评价方法,获取显著尺度的聚类知识,上述策略使得本文提出的改进的时序聚类知识挖掘算法能够自适应的获取空间邻近、非空间属性值和属性趋势相似的类别。最后以本文提出的顾及尺度驱动的聚类知识挖掘算法为挖掘技术手段,以全国降雨时序数据为例开展模式挖掘,结果表明全国降雨呈现显著的区域特征,且西北部地区降雨量少,且年间降雨总量波动小,而东部和南部地区,降雨量大,且年间降雨总量波动大,并且从类别间提取出的显著分异线与全国的半干旱半湿润分割线保持一致;以宁波市地表变形为例,挖掘的聚类知识表明宁波市主城区呈现地表缓慢上升的趋势,而重点开发建设区域以及围填海区域呈现显著的不均匀形变的特征,大面积开发区域在建成后的20年内基本处于稳步下沉的状态,上述模式的挖掘为地表变形机理分析奠定了良好的基础。开展顾及尺度驱动的多元关联关系聚类知识挖掘算法研究。顾及尺度驱动的多元关联关系聚类知识挖掘算法通过采用层次策略分别对空间属性和非空间属性关联关系进行聚类,首先采用PSO优化算法和Delaunay三角网,获取最优空间尺度的目标之间的邻接关系,然后融合Apriori算法和改进的基于密度的聚类算法,获取显著的多元关联关系集聚性分布区域。采用模拟数据进行算法验证,结果表明本文提出的改进的多元关联关系聚类知识挖掘算法能够自适应的获取多元关联关系在空间的显著分布区域。采用顾及尺度驱动的多元关联关系聚类知识挖掘算法开展土壤元素受环境因素影响的空间集聚性分布区域的挖掘,结果表明研究区内土壤元素分布受环境因素影响显著,基于该结论,进一步改进预测模型构建时校正集样本选择方法,选取具有多元代表性(包括环境代表性)的样本,构建预测模型,结果表明改进的方法能够更高精度的实现预测分析。总之,本文旨在自适应的获取显著尺度的集聚性分布知识。首先提出具有普适性的聚类知识挖掘模式,以挖掘模式为指导,开展顾及尺度驱动的聚类知识挖掘算法及应用的研究。其中聚类知识挖掘算法根据数据类别的不同分为顾及尺度驱动的双重聚类知识挖掘模型、顾及尺度驱动的时序聚类知识挖掘模型以及顾及多元关联关系聚类知识挖掘模型。
其他文献
通过采用不同浓度草甘膦防除新建茶园内铁芒箕试验,并与人工割除相比较,测试出一种经济适用的施药浓度,为茶园生产服务.
生物柴油油品是保证柴油发动机正常运行的必要条件,本研究采用离子色谱法研究了添加抗氧化剂对生物柴油离子含量的影响。研究结果表明:添加抗氧化剂BHT对生物柴油离子含量产
阐述老年女性压力性尿失禁的病因、分型;从心理护理、认知干预、行为干预、生活指导、皮肤护理、药物指导方面进行综述,旨在为临床护理人员对老年女性压力性尿失禁患者进行更全
本文从感知价值的角度研究了非耐用消费品消费的城乡差异,发现农村地区的居民对同样价格下的产品质量评价较高,对同样质量下的产品价格也更为满意。由此说明,农村居民在消费
目的:采用Meta分析方法从循证医学角度对国内老年男性病人留置不同型号尿管进行系统评价。方法:计算机检索CBM、VIP、CNKI、万方数据库;手工检索纳入研究的参考文献按Cochran
经济适用房在我国的发展已有20多年的历史,虽然实施至今,有关经济适用房的争论此起彼伏,但是,这并不能掩盖经济适用房在解决城镇低收入家庭住房方面发挥的重要作用。同时,经
随着电视行业的快速发展,电视制作技术水平不断提升,大型活动现场直播与录制越来越复杂,给电视导播提出了更高的要求,这就需要我们不断地充电学习,不断创新切换技巧和手法,不
目的:探讨天麻钩藤颗粒对利血平致偏头痛模型小鼠的影响,为该复方制剂临床应用的拓展提供参考。方法:采用利血平致小鼠偏头痛模型,观察天麻钩藤颗粒对模型小鼠行为学、血中一
(上接11月10日第10版)$$ (二)旅游人才职业通道还很不完善,人才政策环境亟待改革完善$$ 所谓职业通道(Career Path-ways)一般是指员工的职业发展计划及其可能性。职业通
报纸
大型海底沉管隧道的沉放是沉管隧道工程设计与施工中的一个重要环节,也是整个施工过程中最危险、对技术要求最强的环节。复杂的海洋环境条件下,当遇到较恶劣的施工环境(主要