论文部分内容阅读
随着互联网的飞速发展,数据的维度和数量呈爆炸式增长,高维数据的聚类分析问题显得愈发重要。传统的聚类分析方法不能有效地对高维数据聚类,因此研究者提出半监督聚类集成的方法来解决此类问题。半监督聚类集成将半监督学习和集成学习应用在聚类分析任务中,能够显著地提升高维数据聚类结果的准确性、稳定性和鲁棒性。然而,当前的半监督聚类集成方法存在一些缺点,例如:1)没有专门设计有效的方法处理高维数据问题;2)不能充分地利用先验知识,尤其是成对约束信息;3)在聚类集成生成过程中,随机性太强,没有采用自适应的方法来优化生成过程;4)在聚类集成一致性函数过程中,考虑了所有的聚类成员的结果,即使有些聚类成员的结果质量很差。为解决这些缺点,本文提出了一种双重自适应的半监督聚类集成方法(DASSCE)。DASSCE主要贡献有:1)提出了一种基于bagging约束的子空间生成方法,该方法使用bagging约束产生一组约束子集,并使用不同的约束子集指导子空间生成。2)设计了一种自适应的约束聚类集成选择方法,该方法能够有效地移除聚类结果中的冗余和噪音划分结果。3)采取自适应的子空间集合优化方法,从而获得了更好的聚类效果。为评测DASSCE的有效性,本文采用来自不同领域的、不同特点的、公开的高维数据集并设计了详尽的实验。实验结果表明:在高维数据聚类问题上,由于采取了本文提出的三个创新点,DASSCE获得了比其他半监督聚类方法更好的聚类效果。