论文部分内容阅读
聚类分析是数据挖掘领域一种重要的技术手段,近些年迅速发展起来的粗糙K-means算法将数据对象客观地划分为具有明确归属关系的下近似区域以及含有不确定归属关系的边界区域,是一种新的有效软聚类分析方法。在粗糙K-means算法中,边界区域数据对象参与中心均值迭代时权重系数的设置对于聚类结果具有非常重要的影响。现有的粗糙K-means算法在度量下近似和边界区域的相对重要性权重以及边界对象个体的权重系数时,没有充分考虑类簇数据空间分布情况的影响。本文综合考虑下近似和边界区域对象的空间分布,探索下近似和边界区域的相对权重以及边界区域的数据对象参与类簇中心迭代的个体权值自适应度量的方法,并结合光伏功率发电预测系统的实际应用需求,将设计的粗糙K-means聚类算法用于光伏预测数据的预处理分析。主要研究内容包括:(1)基于空间距离自适应相对权重度量的粗糙K-means算法。传统的粗糙K-means算法大多根据经验选择固定的权重,忽视了簇内对象的空间分布情况和簇间的差异性。根据下近似和边界区域对象相对于簇心的空间分布情况,设计了基于空间距离的相对权值自适应度量的方法,用于动态自适应地计算下近似和边界区域的相对权重系数,并提出一种基于空间距离自适应相对权重度量的粗糙K-means算法。(2)基于邻近点空间分布自适应权重度量的粗糙K-means算法。传统的粗糙K-means算法中,大多基于边界对象与簇心的距离度量边界对象与类簇的相似度,忽视了边界对象邻近点的空间分布情况。根据边界对象所在交叉类簇的下近似区域邻近点的个数以及与邻近点的距离综合计算边界对象参与各类簇迭代计算的权值系数,并提出一种基于邻近点空间分布自适应权重度量的粗糙K-means算法。(3)基于粗糙K-means聚类算法的光伏发电功率预测数据预处理。神经网络是光伏发电功率预测最为常用的模型,但随着预测精度要求的提高、数据量的增大,用初始的数据样本训练神经网络预测模型,往往造成网络结构庞大、训练困难,难以达到要求的精度,而对原始数据先进行聚类预处理分析则有助于神经网络模型的构造、加快网络模型的训练过程。结合光伏发电功率预测系统的实际应用需求,将设计的粗糙K-means算法用于光伏训练数据的预处理,并结合光伏发电功率预测的结果与传统的聚类预处理方法进行对比分析。