论文部分内容阅读
近年来,随着科学技术的进步,基因组学,金融学,人类健康,图像数据处理等方面对于数据的要求越来越高,很多学者已经将研究重心转移到高维数据甚至是超高维数据。基于高维数据统计推断的研究在不断发展。统计推断主要解决四个方面的问题,包括随机误差的方差估计,回归系数的假设检验,置信区间的构建以及变量选择,而后三者都需要以精确的随机误差的方差估计为前提。所以研究高维情形下的随机误差的方差估计具有重要意义。 本文研究的误差的方差估计是建立在一般的可变系数统计模型之上,即假设各系数的变化基于相同的指标变量。变系数模型是非参数统计模型中的重要一类,它体现了在指标变量的影响下模型系数的变化趋势。相比一般的线性模型,变系数模型的模型解释能力和预测能力更胜一筹,所以本文研究的基于高维变系数模型的随机误差的方差估计。 本文主要做了以下四方面的工作: 首先,对于高维变系数模型,在假设模型变量稀疏的前提下,本文通过构造B样条基来逼近变量系数,将模型转换为一般的线性模型。其次,基于相关性学习理论,采用非参数独立筛选(Non-parametric Independence Screening,NIS)方法进行特征筛选,即通过各协变量的边际效应进行特征筛选,达到变量选择的目的,并有效提高算法稳定性和统计精度。然后,运用数据分割技术,采用改进的交叉验证(RCV)方法实现模型随机误差的方差估计,理论上证明该方差估计量渐近于正态分布,具有较好的优良性质。最后,对RCV估计、Naive估计以及Oracle估计进行数值模拟。通过对比发现,Naive估计低估了真实方差,RCV估计与Oracle估计比较接近。结果表明:在一定条件下,将RCV估计方法运用到高维变系数模型,不仅避免了“维数祸根”带来的估计阻碍,而且得到的随机误差方差的估计比较稳定,效果较好。