论文部分内容阅读
聚类挖掘是数据挖掘研究领域的一个重要研究分支,在语音识别、图像分割、市场营销、金融保险、电子商务等诸多领域广泛应用。聚类挖掘的实质是旨在将样本集按其自身属性聚成若干类,以保证类内样本相似度尽可能高,而类间样本相似度尽可能低。多尺度聚类是典型的跨学科课题,其本质是利用聚类技术多尺度、多层次地剖析研究客体的客观构成,研究尺度转换引起的尺度效应现象和各尺度间的函数关系。多尺度理论已在聚类挖掘领域取得了可观的进展,提出了一些多尺度聚类挖掘的理论和方法,但研究多局限于空间、图像数据,限制了多尺度科学在聚类技术上的应用和推广。论文结合多尺度科学与聚类挖掘各自领域特点,进一步研究面向一般数据集的多尺度理论与多尺度聚类挖掘方法。在聚类挖掘领域引入多尺度科学的相关理论与方法,提出以概念分层为基准的广义尺度定义,分析尺度转换和尺度效应实质,构建多尺度聚类挖掘系统结构,最终形成多尺度聚类挖掘理论体系;以多尺度聚类挖掘理论与方法为指导思想,结合无偏最优估计的克里格方法,提出多尺度聚类挖掘的尺度上推挖掘算法和尺度下推挖掘算法,实现数据聚类的多尺度化;最后,提出基于信息熵的多尺度聚类尺度转换结果评价指标,为最终的多尺度聚类挖掘结果提供了理论和方法支持。本文立足聚类挖掘,借助多尺度科学理论,探索构建多尺度聚类挖掘理论体系,研究多尺度聚类尺度转换方法以及尺度转换结果评价指标。主要研究内容包括以下几个方面:1)探讨构建多尺度聚类挖掘理论体系传统的聚类挖掘未对数据的多尺度特性进行深入研究,并且已有的多尺度聚类挖掘理论和方法多局限于空间、图像数据。针对存在的问题,从多尺度数据集、尺度转换、尺度效应和多尺度聚类挖掘系统结构四个方面研究多尺度聚类挖掘理论体系。首先,提出基于概念分层的数据尺度、尺度划分和多尺度数据集以及多尺度数据集之间祖孙、父子、兄弟和上下层关系的定义,确立理论基础;其次,分析多尺度聚类挖掘核心——尺度转换的定义、原因、分类和途径;再次,归纳多尺度聚类尺度效应的定义及其影响;最后,在传统数据挖掘过程的基础上,提出多尺度聚类挖掘系统结构,为多尺度聚类的后续研究提供理论支撑和实现思路。2)提出多尺度聚类挖掘算法多尺度聚类挖掘理论体系为尺度转换提供了理论基础,结合尺度转换过程,构造多尺度聚类挖掘算法框架;分析克里格法可用于一般数据集的本质;通过分析目前地学、图像学、生物学等学科较为成熟的尺度转换方法思想,基于块状克里格法BK(Block Kriging)提出多尺度聚类挖掘尺度上推算法MSCSUA(Multi-Scale Clustering Scaling Up Algorithm),并基于回归面到点克里格法ATPRK(Area To Point Regression Kriging)提出多尺度聚类挖掘尺度下推算法MSCSDA(Multi-Scale Clustering Scaling Down Algorithm)。算法实现了聚类挖掘知识的多尺度化,与传统聚类算法直接在目标尺度进行聚类的结果进行比对,并对算法的正确性和可行性进行分析。3)提出多尺度聚类有效性指标多尺度聚类有效性指标是对多尺度聚类尺度上推和下推结果的定量评估,是对尺度转换算法直观的分析评价。论文结合多尺度领域尺度转换精度评价指标和聚类有效性指标,引入信息熵度量不同聚类有效性指标下聚类结果尺度效应的不确定程度,并将信息熵结果归一化后作为各聚类有效性指标的权重,加权集成得到多尺度聚类有效性指标MSCVI(Multi-Scale Clustering Validity Index),以便更好地适于不同实际应用。4)验证多尺度聚类挖掘算法和多尺度聚类有效性指标针对提出的多尺度聚类挖掘算法及多尺度聚类有效性指标应用于多个UCI公用数据集和真实数据H省全员人口数据进行测试分析。实验结果表明本文算法相比传统聚类算法正确率高,运行时间短,是可行的聚类算法;本文有效性指标也较传统聚类有效性指标正确率有较大提升,对高维数据集也表现出良好的评价效果。