论文部分内容阅读
基于密度的方法可以发现任意形状的聚类结果,能克服基于距离的算法只能发现“类圆形”的聚类的缺点。因此基于密度的聚类方法在聚类分析中具有重要的地位。
但对于密度分布不均匀的数据集,传统的聚类方法如DBSCAN等算法的聚类质量较差。针对这个问题,本文通过分析DBSCAN算法的边界检测条件,指出其边界检测条件在密度分布不均匀的数据集上应用的局限性,然后提出了一种新的边界检测度量:质中心偏离度量。质中心偏离度量可以有效地把相邻密度分布不均匀的或具有层次特性的簇的边界和内点区分出来。在质中心偏离度量基础上,本文提出一种新的密度聚类算法DBSCANCD。该算法可以有效地把相邻密度分布不均匀的或具有层次特性的簇区分出来,并提供簇的相邻信息及合并方法。
本文的主要贡献首先在于提出了一种新的边界检测度量。这个度量可以有效地应用于密度分布不均匀的条件下。由于本文的思想可以在不改变密度聚类的算法框架下实现,因此,除了可以改进经典的DBSCAN算法,还可以改进大部分的基于密度的聚类算法,并且时间复杂度不会增加。其次,本文基于质中心偏离思想提出了簇的相邻度计算方法,用以分析簇与簇之间的关系。由于基于质中心偏离思想实现的新算法能够比较简单地把相邻密度分布不均匀的或具有层次特性的簇区分出来,因此,提供簇与簇之间的相邻信息及簇与簇之间的合并方法对算法使用者很有意义。
利用具有不同分布特性的数据集对DBSCANCD算法的有效性和性能进行测试分析,实验表明,DBSCANCD算法取得了较好的聚类结果和具有较高的性能。