论文部分内容阅读
集成学习是近年来机器学习方面的研究热点。这种方法能使用特定组合方式将多个分类器或聚类模式组合起来,从而显著提高学习系统的泛化能力和准确性。而聚类集成作为集成学习中的重要组成部分,业已被广泛应用于各种领域。目前已经提出了许多的聚类集成的方法,这些方法能够有效地解决低维标准数据集的聚类集成问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效。特别是对于高维数据、含噪声特征的数据以及大样本数据的情况。因为传统聚类集成方法1)对高维数据进行聚类时,许多无关的特征会对结果造成不好的影响同时也延长了处理时间;2)对于含噪声特征的数据,传统的聚类集成算法基本不能对其进行有效的聚类处理;3)对于大型数据的情况,在最后进行结果集成时,由于结果的规模太大,而导致运行时间过长。本文根据现有聚类集成算法的上述不足之处,分别提出了两种行之有效的方法:1)对特征进行聚类来降低数据维度,同时去除噪声特征;2)提出结构集成的思想来简化聚类集成的过程,从而降低运行时间。在实验部分,本文分别使用了合成数据集、网上公开的基因数据集以及UCI机器学习数据集来对上述两种方法进行测试。实验结果表明,新提出的方法能够取得令人满意的效果。