论文部分内容阅读
聚类分析是研究在没有训练集的情况下对样品进行分类的多元统计和数据分析方法。利用聚类分析方法对给定数据进行分类时,所采用的样品并不知道其所属类型,而根据样品间的“相似”程度来自动地进行分类。聚类分析的主要目的在于把给定数据集按照一定的规则适当地划分成一系列有意义的子集(或称类(clusters)),使得每个类中的样品之间相似程度尽量大,而处在不同类的样品之间尽可能有“较大差异”。一个好的聚类结果,一方面可对给定的数据按其固有的性质所分成的各个类去把握其特征,从而达到浓缩原来数据规模的目的。另一方面可从结构相对复杂的原始数据得到结构更加简单而直观的数据资料,以利于对给定问题做进一步分析和研究。
本文利用覆盖算法的思想,提出二阶段覆盖聚类算法,并在分析过程中对一些特征指标之间相关性大的聚类问题,应用主成分分析方法尽可能克服指标之间的高度相关程度对聚类结果稳定性的影响。力求做到既提高聚类算法的速度又保证聚类结果的有效性。并将通过一些实例分析部分地说明和检验所提出方法的可行性和有效性。