论文部分内容阅读
模糊聚类分析是将模糊数学方法引入聚类分析,采用隶属度函数确定样本间亲疏关系的聚类方法,适合处理客观世界中大量存在的界限不分明的聚类问题。作为一种重要的数据挖掘方法,目前模糊聚类分析已经在数据挖掘领域得到广泛的应用,诸如网络入侵检测、故障诊断和图像分割等。在研究传统的模糊聚类算法和基于核函数的模糊聚类算法基础上,考虑到现有聚类算法忽略了待聚类样本各属性间的不平衡性,不能全面反映聚类样本的特点,本文给出一种改进的属性加权核模糊C-均值(Weighted Kernel-based Fuzzy C-Means, WKFCM)聚类算法,该算法在聚类过程中,根据不同类别的特性,动态调整各属性对不同类别的权重,体现了不同属性对聚类结果贡献度的差异性。将该聚类算法应用于数据挖掘领域的实际问题中,验证了WKFCM模糊聚类算法的优越性能。本文的主要研究内容包括以下几个方面:首先,在分析了数据挖掘领域中的聚类分析方法的基础上,研究了C-均值聚类算法、迭代自组织数据分析算法(Iterative Self-Organizing Data Analysis Technique Algorithm, ISODATA)、核C-均值算法和支持向量聚类(Support Vector Clustering, SVC)等硬聚类算法。结合模糊数学的方法,进一步研究了模糊C-均值(Fuzzy C-Means, FCM)算法及其改进算法GK(Gustafsson-Kessel)模糊聚类算法,以及基于核函数的核模糊C-均值(Kernel-based Fuzzy C-Means, KFCM)聚类算法。其次,针对所研究的上述模糊聚类算法未考虑待聚类样本属性间的不平衡性的缺陷,给出一种改进的属性加权WKFCM聚类算法,充分体现了各特征属性对聚类结果贡献程度的差异性,改进了现有模糊聚类算法的不足。最后,将所研究的上述模糊聚类算法应用在基准聚类数据集以及具有海量数据的网络入侵检测数据挖掘问题中,实验结果表明,在聚类正确率和算法平均耗时等方面,属性加权的WKFCM算法性能最好,体现了模糊聚类算法的优越性能。