论文部分内容阅读
面对大规模的、高维的数据,如何建立有效、可扩展的的聚类数据挖掘算法是数据挖掘领域的一个研究热点。围绕以上问题,本文对聚类算法进行了深入研究,主要包括以下几个方面的内容:通过对Kohonen自组织映射模型(SOFM)及其主要改进模型的分析,提出一种树形动态生长自组织模型。其网络结构在训练中动态生成,克服了SOFM网络结构固定化的限制;所生成的网络结点数目远远低于传统的SOFM及动态增长自组织映射模型(GSOM),所需训练周期少,训练效率高;用扩展因子(SF)来控制网络的生长速度,可以得到精度不同的聚类结果;由用户选取不同的SF值和输入样本集实现数据集的层次聚类。针对基于密度、基于网格聚类方法的缺陷,提出一种基于网格、密度及距离的综合聚类方法。通过仿真实验并与现有聚类算法的比较,该方法能识别任意形状、大小、不同密度的类;能有效过滤噪声数据;参数设置简单,无需预先给定聚类个数;具有近似线性时间复杂度,执行效率高,适合大规模数据的聚类问题。针对现有层次聚类方法的缺点,提出一种层次聚类方法。该方法首先采用划分方法将数据分成原子簇,然后以这些原子簇为基础,实行自底向上的层次聚类得到最终的聚类结果。其可识别任意形状、大小的类,过滤“噪声”数据;具有近似线性时间复杂度,算法执行效率高,适合大规模数据的聚类问题。将代表点思想与神经网络技术相结合,提出一种基于代表点、密度和神经网络的综合聚类方法。其首先使用代表点来描述数据空间的几何特征,然后将代表点的位置与密度信息同时作为神经网络的输入,通过网络训练得到聚类结果。该方法即继承了代表点方法聚类能力强的特点,而且由于使用了可视化SOFM(ViSOM)网络模型,聚类结果的可视性效果好。