论文部分内容阅读
随着数据采集和数据存储技术的飞跃发展,用于机器学习的数据集规模越来越大,利用单个学习器不一定能很好地解决某些学习问题。为了能够提高学习器的泛化能力,有学者提出用集成学习技术联合基学习器来解决同一个问题。现今,集成学习技术已经广泛地应用于传感器故障容错、手写字符识别、生物认证、辐射源识别、语言学、交通、医学、管理学等各个领域。聚类集成学习目的是通过对多个互补的聚类结果的集成来得到一个高可靠性的识别系统,旨在产生泛化能力强、差异大的多个成员聚类器,充分发挥每个成员聚类器在各自聚类性能上的优势,获得比单个成员聚类器都要高的聚类结果。一般通过提高成员聚类器的聚类性能以及增加成员聚类器的多样性来达到提高集成性能的目的。传统聚类集成学习算法不能充分利用数据集特点及个体聚类器的性能差异来提高聚类集成的整体性能,一般表现在:第一,由于聚类是一种非监督的学习,因此忽略了数据集中少量带标记的样本,给个体学习器的结合带来困难。第二,在聚类集成的过程中,各个成员聚类器承担相同的角色,即将所有的成员聚类器全部用于集成,而没有考虑选择部分个体聚类器构建集成的性能是否会优于选择所有个体聚类器构建集成的性能。针对以上问题,本文紧紧围绕选择性聚类集成这一课题,旨在分析研究如何实现选择部分成员聚类器,来提高集成聚类器的整体性能。充分利用训练样本集中的数据特征,利用少量带标记的数据及相关信息,提高聚类的精度和效率。具体来说,本文进行了以下工作:1.简要介绍了集成学习的基本概念及研究现状;介绍了集成学习中比较有代表性的几个算法以及当前聚类集成学习中存在的问题和该文的研究目的。2.提出一种基于Bagging的选择性聚类集成算法,该方法首先将原始数据集等量划分,再利用Bagging算法中的可重复取样技术对原始的数据集进行随机抽取并将其分配到各子集中,应用一种改进的K均值算法在这些数据集上生成成员聚类器;然后引入互信息[6]的概念将多个聚类结果进行处理;最后,对有争议的数据对象计算其与聚类中心的距离,将其重新划分到新的聚类结果中。实验以Weka软件作为平台实现了该算法,并在10个特征不同的数据集上进行实验,结果表明,该算法与SimpleKMeans算法相比,具有更高的聚类准确性。3.提出一种基于分类的半监督聚类集成算法,该方法首先训练一个弱分类器,对原始数据进行粗分类,然后对传统K均值聚类算法进行优化并处理分类结果,用一种新的K-meansGuider方法对分类结果进行聚类,最后对预聚类结果进行集成。该算法在聚类过程中充分利用了数据集中的标记数据,提高了聚类的精度和效率;通过改变初始点的选择方法扩展了传统K均值聚类算法,已标记的数据指导了初始类簇的形成;可以发现任意形状的类簇,并对噪声数据不敏感,该算法同样以Weka软件作为平台,且在15个特征不同的数据集上进行测试,结果表明该算法具有更高聚类能力。