论文部分内容阅读
近年来,作为数据挖掘的重要工具之一,聚类技术得到了越来越多的关注。目前已有许多成熟的聚类算法,而且这些算法被广泛应用于各个相关领域中。然而大多数的聚类算法只是对低维数据集有效,对于日益增多的高维数据集,其聚类性能大大降低。如何正确对高维数据集进行有效的聚类分析是当前数据挖掘领域的一个难点和热点问题。
高维数据集聚类分析的难点之一是其较高的时间复杂度,这使得一些经典的聚类算法,如层次聚类,在处理大规模高维数据时难以有效。高维数据集的另一个难点是其高度的噪音敏感性,这一特点使得众多已有的聚类算法,如k均值聚类、层次聚类等算法的性能大大降低。因此给出快速且鲁棒的用于高维数据集的聚类算法是很有必要的。
映射聚类算法是针对高维数据集提出的一大类聚类算法,实验和理论证明这些算法较之于经典的聚类算法是比较有效的。本文针对上面提到的高维数据集聚类的难点,给出了一种快速且鲁棒的映射聚类算法。该算法中利用关联规则来查询每个聚类簇的相关维,然后利用相关维进行进一步的聚类分析。
该算法的主要优点在于:
1.快速性
2.较好的鲁棒性,对噪音敏感度较低
3.能够自动获得聚类数
我们通过几组仿真实验有效的证明了上述优点。