面向缺失数据的机器学习算法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:jiangjiao610329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失数据普遍存在于医疗诊断、环境监测、社会调查等各个领域。随着机器学习技术在这些领域的广泛使用,对含有缺失的数据进行学习、推断成为经常遇到的问题。大多传统机器学习算法并未考虑对缺失的处理,默认数据是完整规则的。实际上,这种默认主要是由缺失预处理技术保证的。然而,传统缺失预处理是借鉴的统计学方法,其目标是保证统计指标在缺失条件下的误差尽可能小;而机器学习的目标是从数据中学习或推断模型或对数据进行预测,两者并不一致。统计学预处理方法虽然能够消除缺失,但是改变了数据原貌,可能导致在机器学习的过程中引入偏差信息或损失正确信息,继而影响学习、推断的准确性。近些年,研究者们开始关注这一问题,提出了一系列针对机器学习中处理缺失数据的方法。然而,这些研究在准确性上还存在不足。本文围绕这一问题,分别针对三种机器学习方法——超限学习机学习方法、类间隔最大化的特征选择算法以及多视图聚类方法,研究如何基于学习算法本身的机制处理缺失,避免在学习、预测中偏差的引入和信息的损失,实现尽可能准确的学习。针对缺失数据处理导致超限学习机学习不准确的问题,本文在分析常用缺失预处理方法对学习造成影响的基础上,提出一种样本自适应超限学习机学习方法,以实现无需缺失预处理直接对数据进行学习的目标。该方法的基本思想是:将数据集中的缺失样本看作处于特征子空间的样本,在子空间度量缺失样本的经验误差,并以全空间、子空间的权重范数比近似估计真实经验误差。基于此思想,构造了3个监督学习算法的优化方程及其求解方法:S-ELM线性分类算法、S-ELMK非线性分类算法和S-ELMR回归。实验表明:对于缺失随机分布的数据,S-ELM的计算效率较A-ELM更高;S-ELMK的分类准确率较传统填充方法以及V-ELMI、NR-SVM、A-ELM算法更高;S-ELMR较多版本填充ELM算法,准确率相近且计算效率更高。针对缺失处理方法导致类间隔最大化特征选择不准确的问题,本文提出一种期望k近邻类间隔最大化特征选择算法KMFS,实现直接对含有缺失的数据进行特征选择的目标。该方法的基本思想是:对于缺失导致距离无法计算的问题,以距离期望度量样本近邻关系;对于最近邻特征缺失导致的类间隔无法计算问题,以k近邻均值类间隔的方法计算类间隔。实验表明:相比基于填充预处理的方法和SID算法,KMFS能够筛除更多无关特征,以KMFS算法选择的特征建立的分类模型,分类准确率更高。针对已有不完整多视图聚类算法的局限性问题,本文提出一种不完整多视图谱聚类算法IVSC,以实现在“视图数目大于2且所有视图均不完整”情况下的有效聚类。其基本思想是:首先,对不完整视图的相似度矩阵进行形式上的补全;然后,以IFV和RIFV算法提取并修正视图的隐式特征矩阵;之后,以最小化中心差异的方法迭代地更新并融合隐式特征矩阵;最后,得到包含所有视图一致聚类信息的中心隐式矩阵,在其上应用单视图聚类算法k-means即得到最终聚类结果。实验表明:IVSC能够处理多个不完整视图的聚类问题;与KL+CCA相比,在具有一个完整视图的情况下,IVSC在准确性上有较大优势;与PVC和Co KL+KCCA相比,当视图数目为2且均不完整时,IVSC与PVC准确性相近,较Co KL+KCCA准确率更高;对于视图数目大于2且视图均不完整的情况,IVSC较MIC准确率更高。
其他文献
<红楼梦>取得了中国古代小说前所未有的艺术成就,历来为评论家激赏.然而人物容貌描写却存在明显的不足.<红楼梦>中人物容貌描写沿袭前代小说,以"只见"引出骈偶句,生硬插入文
随着高校的逐年扩招,大学生的就业问题引起了社会各界的普遍关注.作者分析了目前大学生的就业现状及其产生的原因.作者认为应对大学生就业问题,理应对在校学生进行就业全程化
长发公主综合征属于胃毛石症中极为罕见的一种特殊类型。胃毛石症通常是由于患者吞食不易消化的毛发,与食物在胃内形成不断增大的块状物(胃毛发石),极少部分患者胃毛石在胃肠
本文分析了目前我国新能源产业发展的现状以及相关税收政策,然后本文探讨了美国、日本、印度在支持新能源产业发展的税收优惠政策制定上的做法,通过对其他国家支持新能源产业
以皮皮虾壳(甲壳素)为原料,再用NaOH溶液进行处理使甲壳素脱去乙酰基制备壳聚糖。采用单因素试验的方法寻找NaOH溶液的质量分数、处理时间、处理温度以及甲壳素和NaOH溶液的
为研究屈曲约束钢框架与屈曲约束铰接钢框架两类不同结构形式钢框架的破坏机制和经济指标,通过对中、日、美框架结构设计规范的研究,以屈曲约束支撑水平力分担率β和结构首层
超临界流体萃取技术作为一种高效、绿色的工艺技术已经广泛地应用于天然产物的提取分离。超临界CO2具有无毒无害,不易燃和廉价易获得,以及使用后不会存在于目标物质中,免除了