论文部分内容阅读
聚类算法研究是机器学习和数据挖掘的核心研究内容,已经吸引了无数的研究者为之努力。聚类是无监督学习的代表,在聚类算法中,数据之间的相似度是根据描述对象的属性值来计算的,选择适当的相似性度量是保证聚类质量的重要问题。但是,传统的基于距离的相似性度量不适用于高维的、包含混合类型的数据集。同时,传统的机器学习方法大多只考虑有标签数据或者只考虑未标签数据,而在真实问题中往往是二者并存,如何更有效地利用这些数据成为当前的研究热点之一。能够同时利用标签数据和未标签数据的半监督学习应运而生,许多传统的聚类算法被推广为“半监督版本”。经验表明,在半监督学习领域,借鉴和采用聚类思想对推进学习过程和改进学习性能均十分有效。本文首先针对多数传统聚类算法所采用的基于距离的相似性度量的局限性问题,提出一种适用于聚类领域的基于空间覆盖思想的相似性度量,它利用数据在多维空间中的相互覆盖关系来衡量数据之间的相似性,并进一步实现了基于该相似性度量的层次聚类算法SOHC (a Spatial Overlapping based similarity measure applied to Hierarchical Clustering),通过实验分析验证了该算法的有效性。然后将聚类算法推广应用到半监督学习的不同领域,设计和实现了相应的三种算法:(1)针对具有少量标签数据的极高维数据集,提出基于空间覆盖的半监督特征选择方法SOS-FS (Spatial Overlapping based Semi-supervised Feature Selection);(2)针对人工对大型数据集进行标记的传统监督分类方法可行性低,提出应用于大型数据集上的一种新的半监督分类方法SS-LFL (a novel Semi-Supervised classification applied to Large data sets with very Few Labeled examples);(3)针对特征选择算法的鲁棒性和稳定性问题以及现实中大量的廉价未标签数据的利用问题,提出一种新的双重融合的半监督特征选择算法ESSFS (a novel dual Ensemble based Semi-Supervised Feature Selection method)。在有针对地选择的数据集上对这三种算法分别进行了实验,实验结果表明所提出的算法具有广泛的应用基础和良好的应用前景。