基于模型平均的超高维缺失数据分析方法

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:fishsun26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着科学技术的高速发展以及数据搜集能力的不断提升,超高维数据日益频繁地出现在大众的视野中。由于数据量过于庞大,对超高维数据进行分析是一个难题。然而,在医学、基因学、社会学等领域经常会出现超高维缺失数据,与完整数据相比,对此类数据进行分析更为不易。因此对超高维缺失数据的研究十分有意义。本文在响应变量随机缺失的超高维数据背景下,展开了研究,具体研究内容如下:第一章系统地介绍了本文的研究背景和研究意义,同时介绍了国内外关于超高维数据的研究情况,说明了本文的主要研究内容以及创新点。第二章首先基于给定响应变量Y下,预测变量X的条件分位数,提出了针对响应变量为二分类时超高维数据的条件分位数特征筛选方法(CQFS)。其次结合上述的条件分位数与模型平均思想,得到了基于模型平均思想的条件分位数特征筛选方法(MACQFS),上述的两种方法均满足确定性筛选性质。利用蒙特卡洛数值模拟以及真实的肺癌数据对上述两种筛选方法的筛选性能进行了检验,结果表明它们均有着稳健的筛选性能,且具有出色的实际应用效果,两者之间,MACQFS特征筛选方法更优。第三章在第二章的基础上,结合给定预测变量X下,响应变量Y的条件分位数、逆概率加权方法与模型平均思想提出了模型平均特征筛选方法(MMACQ),对响应变量随机缺失情形下的超高维数据进行降维,证明了MMACQ特征筛选方法满足确定性筛选性质,且通过数值模拟验证了其优良的筛选性能。第四章在响应变量随机缺失的超高维数据背景下,提出了一个“两步走”分析方法,首先利用第三章提出的MMACQ特征筛选方法对数据进行降维,再结合扩张的逆概率加权与Mallows’准则提出扩张逆概率加权模型平均算法(GMA算法),对降维后的数据进行建模分析。利用数值模拟以及真实的转基因小鼠心肌病数据验证了此“两步走”分析方法的可行性,结果表明该方法确实能有效地降低预测误差,同时也进一步验证了第三章提出的MMACQ特征筛选方法具有很好的实际应用价值。第五章详细地对本文的研究内容进行了总结,并提出了文章存在的一些不足以及对这些不足的进一步思考。
其他文献
混沌系统是一种特殊的非线性系统,是指确定性非线性系统中存在着貌似随机的不规则运动,对初值有着极端的敏感性。混沌系统在图像处理、信息安全、故障诊断、经济金融等众多领域中有着重要的应用,因此近几十年来,新混沌系统的建立、混沌控制与混沌同步等得到了广泛关注和研究。本文围绕混沌系统动力学分析与同步控制的相关问题进行研究,主要内容如下:首先,通过引入非线性指数函数项,提出一个具有无穷多个平衡点的新四维混沌系
链路预测作为复杂网络中挖掘和预测缺失信息的方法,越来越受到人们的重视。尽管研究人员提出了各式各样的链路预测算法,但是对不同连边预测精度的差异性缺乏系统的研究。同时,在复杂网络节点未来度增量的研究中,目前基于偏好依附的流行度预测算法并不能很好的解决网络中新节点的流行度预测问题。本文旨在厘清复杂网络链路预测的精度分布特征,并通过聚合链路的预测结果实现对于节点未来度中心性的预测。本文的主要工作如下:(1
夹卷混合过程(卷入率、卷出率、夹卷混合机制)对云的宏微观过程有着重要影响。为解决在观测资料中无法同时估算卷入率和卷出率的问题,以及卷入卷出过程对云微物理的影响,本文利用云的飞机观测资料,提出了估算卷入率和卷出率的新方法,探索了卷入、卷出与微物理之间的相关关系,重点分析了卷入过程对云滴谱宽度的影响。对于积云和层积云,本文分别关注侧边界和云顶的卷入卷出过程。主要结论如下:(1)建立了适用于积云飞机观测
本文利用临界点理论研究了两类微分方程解的存在性和多解性,全文由如下四部分组成.第一章,简述了所研究问题的历史背景,研究现状以及本文的主要工作.第二章,介绍了本文所需的预备知识.第三章,利用极大极小方法,讨论了二阶非自治Hamiltonian系统(?)周期解的存在性.通过引入控制函数,研究了非线性项无界且在无穷远处增长不超过|x|时问题周期解的存在性.第四章,利用山路引理和截断技巧,讨论了一类分数阶
台风是最严重的自然灾害之一,而海面风场变化与台风生消发展过程息息相关,因此监测海面风场在台风监测和预警中扮演了重要的角色。传统的海面风场观测多为浮标站点测量和海洋气象卫星观测,但仍存在时空分辨率不足、观测方式单一及成本较高等问题。星载全球卫星导航系统反射测量(GNSS-R)具有近实时、全天候、覆盖面广等优点,为海面风场观测提供了一种新的观测方式,提高了热带气旋的监测精度。本论文首次利用星载GNSS
随着闪电定位技术和多种探测手段日益发展成熟,单一的观测资料已不能满足当前雷电监测预警的业务要求,根据各种资料的不同特性,利用多种观测资料综合进行雷电监测预警已发展成趋势。本论文基于南京信息工程大学在南京及昆明地区自主搭建的VLF/LF磁场三维闪电探测定位网,将三维闪电定位资料与雷达回波资料、卫星云顶亮温资料结合起来,提取不同地形下不同类型雷暴发生时的典型特征参数,利用TITAN算法进行雷暴区域的识
本文运用拟谱方法和有限差分方法对几类非线性Schr(?)dinger/Gross-Pitaevskii方程的定解问题开展数值研究,提出多个稳定的高精度数值算法,并建立算法的最优误差估计,构造数值算例验证算法的可行性.本文主要内容总结如下:首先,本文数值研究了具有一般非线性项的Schr(?)dinger方程的Dirichlet初边值问题.先是构造了一个新的Sine拟谱算法,然后运用能量分析方法、数学
非线性算子不动点理论是非线性分析中重要的课题之一,是泛函分析理论的重要组成部分.它在(微分,积分)方程求解、优化算法分析、变分理论等方面有着广泛的应用.本文主要研究了一些压缩型算子不动点的存在性、迭代算法及在积分方程中的应用.全文一共分为四章:第一章主要介绍了不动点理论的发展背景与现状,简要叙述了本文的主要工作,并给出了本文所需的一些基本定义和结论.第二章在广义凸度量空间中,研究了一类广义的压缩型
不确定性量化问题在灾害评估、气候变化等方面研究中的重要性越发受到重视。要减少模型输入的不确定性,可通过资料同化方法来达到。资料同化就是通过一定的方法将数值预报模式(偏微分方程数值离散格式)和观测数据相结合对定解问题的输入进行优化,以达到对观测最佳拟合(或预报)的目的。当前,尽管使用降阶模型来替代全阶模型在一个低维空间实施资料同化对于减少计算成本发挥了重要作用,但要在此基础上同时探索原空间最优观测位
矩阵函数优化问题是计算数学中的重要课题之一,在工程计算和数据科学中起着至关重要的作用.在控制理论、金融分析、模型降阶、电子结构计算、数据挖掘等领域有着广泛的应用.本文分别研究了带约束条件的矩阵行列式函数极大值问题和矩阵迹函数极大值问题,得到的结果可用于分析不同维数的Grassmann矩阵对所构成的数据.主要研究内容如下:针对一类带约束条件的矩阵行列式函数极大值问题,首先通过对矩阵函数中的矩阵进行奇