论文部分内容阅读
在实际数据聚类中,经常遇到数据缺失的问题,造成数据缺失的原因主要有:测量误差,数据理解有误或数据漏读等。如果对缺失数据处理不恰当,就会严重影响聚类结果的准确性。因此,对缺失数据聚类问题的研究具有重要意义,并且得到了国内外学者的广泛关注。本文针对模糊C均值算法不能直接用于缺失数据聚类的问题,提出了一种基于改进BP对缺失属性估值的模糊聚类算法。本文采用最近邻规则为缺失数据选择训练样本集,并根据缺失数据的属性缺失特点对选取的训练样本进行缺失处理,处理后的训练样本会包含缺失数据。因此,需要改进BP神经网络使其适用于缺失训练样本集,本文提出了基于缺失数据的BP神经网络(MBP)。利用最近邻训练样本集为每个缺失属性训练MBP网络,然后对缺失属性进行估值预测,最后得到MBP估值恢复后的完整数据集,对恢复后的完整数据集进行模糊聚类分析。针对MBP网络估值后得到缺失属性的估计值是数值型的,但是数值型估值不适于描述缺失属性的不确定性,并且有一定的误差。本文提出了根据MBP网络对缺失样本进行估值时,得到的对完整属性估计误差值,将缺失属性的数值型估值转换成区间的形式,同时,也将完整属性表示成区间的形式。从而,将数值型数据集转换成区间型数据集进行模糊聚类分析,得到最终的聚类结果。最后,采用人工数据集和UCI机器学习基准数据集中的Wine,Bupa,Breast三个数据集在MATLAB平台下进行仿真实验,实验结果表明,采用MBP对缺失数据进行估值得到恢复数据集的聚类结果与对比方法相比准确率有所提高,而采用估值区间进行聚类比数值型估值聚类结果更准确,鲁棒性也更好。