论文部分内容阅读
大数据时代,人类收集、存储、传输、管理数据的能力日益提高,各行各业已经积累了大量的数据资源。同一数据对象的多源信息采集技术和多样化的特征表示能力使多视图数据在众多实际应用中越来越普遍。而对于特定的机器学习任务,数据对象的多个视图彼此之间通常具备互补性和一致性,有利于利用不同视图的优势提高机器学习的有效性,因此多视图学习逐渐受到了人们的关注。多视图聚类作为多视图学习的基本任务之一,通过充分融合多个视图中的信息,从而获得有效的类划分结果。现有的经典多视图K-means聚类算法,由于其简单高效、易于实现的优点,已经成为众多多视图聚类中应用最为广泛的算法之一。然而多视图K-means聚类算法不但存在K-means固有的初值敏感、类数目事先指定的问题,还存在如何自适应学习视图对类结构的权重贡献,以及样本对不同视图重要性的“局部”学习问题。本论文针对以上两个问题展开研究,取得了如下研究成果:(1)针对K-means型多视图聚类算法的类个数和初始中心选择问题,本文研究了不同初始化方法对多视图K-means的影响,提出一种基于采样的主动式初始中心选择方法(SDPC)。该方法首先对原始数据集进行均匀采样,运用DPC算法和CV指标获得候选类中心和类个数,然后对剩余节点进行直接指派,将得到的指派结果作为多视图K-means聚类算法的初始类划分。相比随机初始化、K-mean s++等其他初始化方法而言,SDPC算法不仅解决了类个数和类中心的问题,实验结果显示SDPC算法还以约10倍的计算速度加快了 DPC算法的种子选取进程,降低了算法的复杂度。(2)针对现有多视图K-means聚类算法没有全面考虑多视图数据的不同样本间存在“局部”信息的差异性问题,本文提出一种新颖的多视图样本权聚类方法(SWMVC)。该方法不仅可以学习不同样本点中的多个视图间权重的“局部”差异,而且学习到的“局部”差异可以反映出不同视图对簇结构贡献的“全局”差异,具有较好的灵活性。多个数据集上的实验表明:SWMVC方法在具有较好互补性的异质多视图数据上聚类效果提升明显。