论文部分内容阅读
随着计算机技术和通信技术地不断发展,各行各业中积累的数据量正在日益增长,数据挖掘作为一种能从大规模数据中发现隐含知识的技术,有着广泛的应用前景。聚类分析作为数据挖掘领域中一种重要的方法,已经成为了国内外专家学者关注的热点。由于先验知识广泛地存在于实际应用中,半监督聚类将包含成对约束信息和类标签信息在内的先验知识加以利用,改变传统聚类分析无监督的聚类过程,加入少量的监督信息协助算法获取更好的聚类质量。局部密度聚类(Local Density Clustering,LDC)算法是Rodriguez和Laio在2014年发表于Science上的一种快速、高效的聚类算法,它能发现任意形状的簇,对于非簇心点的分配过程无需迭代,只需一步即可完成。但是LDC算法仍然存在两方面有待改进的地方:一方面是没有利用真实存在的先验知识进一步提高算法的性能;另一方面是不能自动地确定簇的个数和簇心。因此本文针对上述两个方面展开专门研究:针对LDC算法无法直接适用于存在先验知识的实际聚类问题,本文提出了一种半监督局部密度聚类(Semi-Supervised Local Density Clustering,SLDC)算法。所提算法首先利用少量的成对点约束调整LDC算法的距离矩阵,其次采用同类排除法改进非簇心点类别归属的分配过程,使其满足约束对的限制条件,从而解决了半监督聚类中约束违反的问题。然后,在SLDC算法的基础上,针对算法在一些特殊数据集上因人为选择簇心会导致聚类质量降低的问题,提出了一种簇心自动识别的半监督局部密度聚类(Semi-Supervised Local Density Clustering with Automatic Recognition of Cluster Centers,Auto-SLDC)算法。Auto-SLDC算法利用差异扩大化的方法扩大潜在簇心点与非簇心点之间的差异,实现机器对簇心的自动识别,避免了由于人为主观因素造成的误差。最后分别在人工数据集和UCI实际数据集上对本文提出的算法进行了仿真实验,表明了算法的有效性。更进一步地,通过与其它算法的聚类结果对比分析,验证了Auto-SLDC算法能够有效提高聚类精度。