论文部分内容阅读
聚类是数据分析、知识发现和智能决策等领域中的重要研究内容。模糊C均值(Fuzzy C-means, FCM)聚类是应用最为广泛的模糊聚类方法之一,与K-means和层次聚类等硬聚类方法不同,FCM聚类引入了隶属度和模糊度的概念,从而使得其应用范围更加广泛。然而,传统的FCM聚类存在诸多缺陷,例如确定最佳聚类数目较为困难,聚类划分受到数据分布的影响,模糊度参数的选择显著影响聚类结果,易陷入局部极小等。特别是在大数据背景下,数据量急剧增加的同时,数据形态也更加复杂,这给传统FCM聚类方法的应用带来了严峻挑战。因此,研究FCM聚类及其有效性检验方法与应用,对于提高FCM聚类性能、丰富聚类相关理论以及促进模糊聚类的广泛应用具有重要意义。本文在对国内外关于FCM聚类及其有效性检验相关研究进行总结和评述的基础上,采用理论分析、数据实验和应用研究相结合的方法,对FCM聚类及其有效性检验方法,以及这些方法在电力系统负荷数据分类中的应用进行了较为深入的研究。本文的主要研究内容和创新点总结如下:(1)提出了一种加权形式的模糊聚类有效性指标。首先系统地分析、总结和评述了主要的模糊聚类有效性指标及其存在的问题,在此基础上,构建了一种加权形式的模糊聚类有效性指标。实验结果表明,通过合理地设置不同指标的权重,加权指标解决了传统聚类有效性指标的不足,能够较好地识别给定数据集的最佳聚类数,为模糊聚类有效性研究提供了新的思路。(2)构建了一个考虑数据集中数据类大小和密度差异的模糊聚类有效性指标。为有效处理包含大小和密度差异较大数据类数据集的模糊聚类有效性问题,提出了由紧致性、重叠度和分离性三个度量因子构成的新的模糊聚类有效性指标COS。COS指标以一定阈值范围内的所有样本点到某类的隶属度之和与最大类内距离之比度量该类的紧致性,用一定阈值范围内某样本点属于两个类的隶属度差异表示这两个类之间的重叠度,同时用所有类之间的最小距离表示类间分离性,最佳聚类数由COS指标的极大值确定。实验结果表明,提出的COS指标能够有效发现数据集中的小类和低密度类,为解决包含大小和密度差异较大类数据集的模糊聚类有效性问题,提供了一定的理论支撑。(3)探究了FCM聚类对数据分布的均匀效应。从理论上分析了FCM聚类算法目标函数的构成,指出了其目标函数中三个因子会对FCM聚类结果产生影响,提出了基于数据分布视角的FCM聚类有效性评价准则和模糊度参数选择准则以及选择算法,在人工数据集和真实数据集上进行的广泛实验进一步揭示了FCM聚类的均匀效应,以及模糊度参数取值对这种均匀效应的影响。这对理解FCM聚类划分的结果、提高其应用性能以及实际应用中选择合适的模糊度参数值具有指导意义。(4)提出了基于聚类有效性的FCM模糊度参数选择方法,并将这一方法应用于电力负荷曲线的分类。基于利用聚类有效性指标确定最佳聚类数的思路,提出了利用模糊聚类有效性指标选择最优模糊度参数值,并给出了基于聚类有效性的FCM模糊度参数选择方法的具体步骤。实验研究表明,现有研究中广泛使用的模糊度取值并不总是最优的。将这一方法用于智能电网环境下的负荷曲线分类问题,提高了FCM聚类在负荷曲线分类中的实用性。(5)研究了智能算法优化的FCM聚类在电力系统综合负荷特性分类和需求侧管理(Demand Side Management, DSM)中的应用。针对传统FCM聚类易陷入局部极小的问题,指出利用模拟退火算法和遗传算法优化的FCM聚类能够有效提高其全局搜索能力,将模拟退火和遗传算法优化的FCM聚类方法应用于电力系统综合负荷特性和负荷曲线的分类,提高了负荷分类的精确性和有效性,为电力系统DSM项目的实施和电力系统决策提供了支持。