论文部分内容阅读
多标记学习作为当前机器学习领域的研究热点,在实际应用中,为了提高多标记学习算法的分类性能,需要采集大量的特征。然而,过于繁多的特征则会引起维数灾难,分类困难的问题。因此,如何有效约简高维数据,对提升分类精度有着重要的意义。此外,以往多数维度约简算法均是依靠特征间的依赖关系评估特征的好坏,而很少有利用特征集合之间相似度程度作为衡量特征好坏的标准。基于此,本文提出两种多标记维度约简算法,主要内容如下: 1.判别嵌入式聚类(DiscriminativeEmbeddedClustering,DEC)算法是一种集维度约简与聚类的整合框架。考虑该方法在数据降维方面的有效性,本文将DEC算法应用到多标记数据特征降维中,提出基于DEC算法的多标记学习。该算法结合子空间学习与聚类的算法,有效避免了其它维度约简算法因矩阵奇异而无法求解的问题。实验与当前广泛使用的5种维度约简算法对比,结果表明基于DEC算法的多标记数据维度约简是可行的,其有效提升了多标记数据的分类性能。 2.尽管DEC算法对多标记数据的维度约简是有效的,但该算法并没能充分考虑特征与标记集合以及特征与特征之间的关联度。因此,针对DEC算法以及过往算法的不足,本文提出一种改进的基于互信息的多标记特征选择算法。首先,利用交叉相似度(intersectionsimilarity)的思想计算特征与特征之间的相似度,从而剔除冗余特征;然后利用特征与标记集合之间的互信息,提取相关特征序列;最终有效整合这两种思想,并利用平衡参数α控制两项之间权重,以选择与类别标记最大相关而与其它特征集最小冗余的一组特征序列。基于8个公开数据集的实验结果,证明了该算法的有效性。