论文部分内容阅读
缺失数据普遍存在于医疗诊断、环境监测、社会调查等各个领域。随着机器学习技术在这些领域的广泛使用,对含有缺失的数据进行学习、推断成为经常遇到的问题。大多传统机器学习算法并未考虑对缺失的处理,默认数据是完整规则的。实际上,这种默认主要是由缺失预处理技术保证的。然而,传统缺失预处理是借鉴的统计学方法,其目标是保证统计指标在缺失条件下的误差尽可能小;而机器学习的目标是从数据中学习或推断模型或对数据进行预测,两者并不一致。统计学预处理方法虽然能够消除缺失,但是改变了数据原貌,可能导致在机器学习的过程中引入偏差信息或损失正确信息,继而影响学习、推断的准确性。近些年,研究者们开始关注这一问题,提出了一系列针对机器学习中处理缺失数据的方法。然而,这些研究在准确性上还存在不足。本文围绕这一问题,分别针对三种机器学习方法——超限学习机学习方法、类间隔最大化的特征选择算法以及多视图聚类方法,研究如何基于学习算法本身的机制处理缺失,避免在学习、预测中偏差的引入和信息的损失,实现尽可能准确的学习。针对缺失数据处理导致超限学习机学习不准确的问题,本文在分析常用缺失预处理方法对学习造成影响的基础上,提出一种样本自适应超限学习机学习方法,以实现无需缺失预处理直接对数据进行学习的目标。该方法的基本思想是:将数据集中的缺失样本看作处于特征子空间的样本,在子空间度量缺失样本的经验误差,并以全空间、子空间的权重范数比近似估计真实经验误差。基于此思想,构造了3个监督学习算法的优化方程及其求解方法:S-ELM线性分类算法、S-ELMK非线性分类算法和S-ELMR回归。实验表明:对于缺失随机分布的数据,S-ELM的计算效率较A-ELM更高;S-ELMK的分类准确率较传统填充方法以及V-ELMI、NR-SVM、A-ELM算法更高;S-ELMR较多版本填充ELM算法,准确率相近且计算效率更高。针对缺失处理方法导致类间隔最大化特征选择不准确的问题,本文提出一种期望k近邻类间隔最大化特征选择算法KMFS,实现直接对含有缺失的数据进行特征选择的目标。该方法的基本思想是:对于缺失导致距离无法计算的问题,以距离期望度量样本近邻关系;对于最近邻特征缺失导致的类间隔无法计算问题,以k近邻均值类间隔的方法计算类间隔。实验表明:相比基于填充预处理的方法和SID算法,KMFS能够筛除更多无关特征,以KMFS算法选择的特征建立的分类模型,分类准确率更高。针对已有不完整多视图聚类算法的局限性问题,本文提出一种不完整多视图谱聚类算法IVSC,以实现在“视图数目大于2且所有视图均不完整”情况下的有效聚类。其基本思想是:首先,对不完整视图的相似度矩阵进行形式上的补全;然后,以IFV和RIFV算法提取并修正视图的隐式特征矩阵;之后,以最小化中心差异的方法迭代地更新并融合隐式特征矩阵;最后,得到包含所有视图一致聚类信息的中心隐式矩阵,在其上应用单视图聚类算法k-means即得到最终聚类结果。实验表明:IVSC能够处理多个不完整视图的聚类问题;与KL+CCA相比,在具有一个完整视图的情况下,IVSC在准确性上有较大优势;与PVC和Co KL+KCCA相比,当视图数目为2且均不完整时,IVSC与PVC准确性相近,较Co KL+KCCA准确率更高;对于视图数目大于2且视图均不完整的情况,IVSC较MIC准确率更高。