论文部分内容阅读
聚类分析是无监督模式识别的一个重要分支,作为一个重要的数据挖掘工具已经广泛应用于多个领域。它是把一个没有类别标记的数据集按照某种准则聚为若干类,使相似的数据集尽可能归于一类,不相似的数据集划分到不同的类中的一个过程。现实生活中存在的大量不确定性和模糊性的问题,所以产生了模糊聚类分析。模糊聚类分析已发展成聚类分析中一个十分活跃的研究领域,并在众多领域得到了成功的应用,如分类学、地质学、金融业、市场营销、模式识别和图像分割等领域。因此,模糊聚类分析具有十分广阔的研究与应用空间。本文研究的内容包括以下两个方面:(1)在对基于目标函数的模糊C均值聚类算法FCM(Fuzzy C-Means)研究的基础上,针对模糊C均值聚类算法在初始簇中心选择方面存在的问题进行了改进。因为模糊C均值聚类算法对初始聚类中心有很强的依赖性,所以快速准确找到初始聚类簇中心就能得到理想的聚类结果。传统的模糊C均值聚类算法是随机选取选初始聚类中心,得到的聚类结果有随机性。本文提出了用高斯密度函数计算初始聚类中心。计算方法是:以数据空间中数据点间的最大距离DMax/C为约束条件,选取密度值最大的前C个点作为初始聚类中心,进行FCM算法聚类。实验表明,与随机选取初始聚类中心相比改进算法计算出的初始聚类中心更接近真实聚类中心。(2)基于密度函数加权的模糊C均值聚类算法(DFCM)的设计与实现:根据数据的自然分布特征(有的数据点周围的数据点多,该点的密度大;相反,有的数据点周围的数据点少,该点的密度小),通过计算每个数据对象的高斯密度函数值并将其归一化处理作为权值,加入传统的模糊C均值算法中,得到基于密度函数加权的模糊C均值算法,这样能更合理地发现数据集的自然结构,克服了只是根据数据点间距离确定其隶属度的不足。DFCM算法使用java语言编写,通过使用仿真二维数据集,UCI数据集中的IRIS数据集和高维数据集wine数据集,对改进算法(DFCM)行了测试,实验表明改进算法确定出的数据点对簇的隶属度变化能够更有效地反映出数据点的分布特征,即在密度大、数据点多的簇中数据点的隶属度高,密度大、数据点少的簇中数据点的隶属度值相对较小,密度小、数据点少的簇中数据点的隶属度值更小。因此,通过合理选取隶属度阈值能够有效地区分出客观存在的簇和噪声数据点。