密度聚类算法研究及改进

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zoeshuwen88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于密度的方法可以发现任意形状的聚类结果,能克服基于距离的算法只能发现“类圆形”的聚类的缺点。因此基于密度的聚类方法在聚类分析中具有重要的地位。 但对于密度分布不均匀的数据集,传统的聚类方法如DBSCAN等算法的聚类质量较差。针对这个问题,本文通过分析DBSCAN算法的边界检测条件,指出其边界检测条件在密度分布不均匀的数据集上应用的局限性,然后提出了一种新的边界检测度量:质中心偏离度量。质中心偏离度量可以有效地把相邻密度分布不均匀的或具有层次特性的簇的边界和内点区分出来。在质中心偏离度量基础上,本文提出一种新的密度聚类算法DBSCANCD。该算法可以有效地把相邻密度分布不均匀的或具有层次特性的簇区分出来,并提供簇的相邻信息及合并方法。 本文的主要贡献首先在于提出了一种新的边界检测度量。这个度量可以有效地应用于密度分布不均匀的条件下。由于本文的思想可以在不改变密度聚类的算法框架下实现,因此,除了可以改进经典的DBSCAN算法,还可以改进大部分的基于密度的聚类算法,并且时间复杂度不会增加。其次,本文基于质中心偏离思想提出了簇的相邻度计算方法,用以分析簇与簇之间的关系。由于基于质中心偏离思想实现的新算法能够比较简单地把相邻密度分布不均匀的或具有层次特性的簇区分出来,因此,提供簇与簇之间的相邻信息及簇与簇之间的合并方法对算法使用者很有意义。 利用具有不同分布特性的数据集对DBSCANCD算法的有效性和性能进行测试分析,实验表明,DBSCANCD算法取得了较好的聚类结果和具有较高的性能。
其他文献
本文首先介绍了欧氏空间Cn中某些域的边界型Schwarz引理;其次利用多复变数的边界型Schwarz引理得到了单位球Bn上的正规化双全纯星形映射族及其子族和正规化双全纯β型螺形映
复杂网络描述的是现实世界中的系统,即复杂系统的高度抽象.如科研合作网、万维网、生物网中的新陈代谢网、因特网、电力网、航空网、语言网和引文网等.而现实的很多复杂网络由