论文部分内容阅读
本文主要研究了基于高维纵向数据的部分线性多指标可加模型的降维问题以及该模型在医疗费用中的应用。在观测收集数据时,对同一个受测个体或受测单位,在时间顺序或者空间顺序下,重复追踪多次所观测到的数据,称该数据为纵向数据。纵向数据常出现在医学、生物学、心理学、社会学、经济学以及保险等领域中。纵向数据的研究不仅可以了解受测个体或单位随时间变化的趋势,也可以了解总体随时间变化的趋势。其本质特征是同时结合了时间序列数据和截面数据,组内数据相关而组间数据独立。对于纵向数据的分析研究有两个难点,第一个难点是要考虑同一受测个体或单位,不同次观测间的相关性。第二个难点,在考虑数据相依性的前提下,如何将已有的统计理论和方法进行改进和创新,使之适用于高维纵向数据的处理。由于高维数据的“维数灾难”特点,传统的统计方法不再适用于高维数据的处理,这给传统的统计方法带来许多的挑战与困难。在此背景下,本文研究了在高维纵向数据下的部分线性多指标可加模型的降维问题,并将该模型应用于收集到的纵向医疗费用数据中,对纵向医疗费用数据进行降维分析。本文的创新之处在于:第一,基于高维纵向数据,提出了部分线性多指标可加模型。该模型的优点是,将传统的,协变量是低维情形下的统计模型,改进成允许含有高维协变量的,连接函数未知的统计模型。第二,使用了部分充分降维的理论和方法对高维纵向数据下的部分线性多指标可加模型进行降维。第三,使用了最小平均方差估计的理论和方法对高维纵向数据下的部分线性多指标可加模型进行降维。本文还在已有的统计理论和方法的基础上,进行了改进和创新,使之适用于高维纵向数据的分析。对于部分线性多指标可加模型中高维协变量的降维处理以及连接函数的估计,本文给出了两种不同的估计方法:方法一:首先对模型中多指标部分使用部分充分降维(partially sufficient dimension reduction,PSDR),使得协变量降至低维,得到了模型降维后的部分中心子空间的结构维数和基方向。在使用部分充分降维方法后,多指标模型转化为标准的部分线性可加模型,然后利用Manzan&Zerom(2005)提出的核估计方法,估计未知的连接函数。从而实现对部分线性多指标可加模型的降维以及模型中未知连接函数的非参数估计。方法二:针对高维数据“维数灾难”以及高维纵向数据结构的复杂性,使用Xia(2002)提出的最小平均方差估计(minimum average variance estimation,MAVE),在降维的同时,对模型中未知的连接函数进行估计。从而完成对部分线性多指标可加模型的降维以及模型中未知连接函数的非参数估计。与此同时,本文也分别给出了两种方法的数值模拟和渐近性质。根据数值模拟,可以发现两种方法对高维协变量降维均有较好的估计。最后,利用一组慢性心力衰竭病人的医疗费用数据进行了实例分析。