论文部分内容阅读
线性混合效应模型和污染数据回归模型都是生物统计中常用的模型。本文主
要研究了一类线性混合效应模型、一类纵向污染数据线性回归模型和一类纵向污
染数据半参数回归模型中的估计方法和所建立的估计的渐近性质。
本文第一章介绍了线性混合效应模型和污染数据回归模型的研究概况和本
文的主要结果。
第二章.研究了一类纵向数据线性回归模型参数的最小二乘估计的大样本性
质和一类纵向数据半参数回归模型中的估计的渐近性质,这些结果将在本文主要
定理的证明中被广泛使用。
第三章.研究了Tao等(1999)提出的一类线性混合效应模型
yik=αi+xTikβ+εik,f=l,…,n,κ=l,…,mi,
其中α1,α2,…i.id.Eα1=0,Var(α1)=ó21<∞,且αi有密度函数g,xlk是p维固定设
计向量,β为p维待估参数,{εik,i=l,…,n,κ=l,…,mi}i.i.d.且εik服从N(0,ó2),{αi}
与{εik}相互独立。
与Tao等(1999)所采用的迭代方法不同,我们基于
{xik,yik,f=1,…,n,κ=l,…,mi}构造了参数β,ó2和密度函数g的新的估计方法,我
们建立的估计方法给出了估计量的显式表达,这给进一步的理论分析带来了方
便。我们建立了β的估计量的强相合性和均方相合性,建立了ó2的估计的强相
合性、强相合速度和均方相合速度,建立了g的估计的整体L2收敛性和逐点L1收
敛性。在附录中我们给出了估计量的统计模拟结果,这些结果表明我们建立的估
计方法是可行的。
在不假设随机效应服从正态分布的情形下,线性混合效应模型中的估计量的
构造方法常采用最大似然估计法、限制最大似然估计法或经验Bayes方法。这些
方法通常都不能提供估计量的显式表达,常采用EM算法等数值计算方法求解,
然后用随机模拟的方法来说明估计方法可行。理论分析很难进行。我们借鉴EV
模型中的估计方法给出了估计的简明的表达式,并研究了估计的渐近性质,这使
得我们的方法和结果与众不同。
第四章.研究了二类纵向污染数据回归模型中的估计方法。我们将郑祖康等
(1996)定义的第I类污染数据线性回归模型推广到带有重复观测数据的情形。
定义了一类纵向污染数据线性回归模型:
yij=xTiβ+εijβ+εij,i=l,…,n,j=l,…,mi,
其中{εij}i.i.d.Eεij=O,Eε2ij=ó<∞,β为p维未知参数向量,χi是固定设计点列。
{yij}受到另一串与之独立的随机变量{ti}的干扰。{ti}i.i.d.,Eti=O,Et2i=ó22<∞,
我们可观察的数据为y*ij,y*ij满足
y*ij=(1-v)yij+vti=1,…,n,j=l,…,mi,
其中0<v<l,v称为污染系数。
在上述模型中,若mi=l,i=1,…,n,那么,上述模型就是郑祖康等(1996)提
出的第I类污染数据线性回归模型。这类模型的参数估计方法已分别由郑祖康等
(1996)、陈明华(1998)、任哲和陈明华(2000)研究过。在上述几项工作中都
假定σ21和σ22已知,这一假设条件在实际应用中很难满足,即使在正态线性回归
模型中通常都不假定误差方差已知。
受Huber(1964)中例子的启发,我们在假设σ21和σ22成比例的情形下,基
于{xi,y*ij,i=1,…,n,j=l,…,mi}建立了纵向污染数据线性回归模型参数β,σ21和
v的估计,并建立了这些估计的强相合性。
在进一步假设误差εij服从正态分布N(o,σ21)且mi=l(l为已知正整数,l≥2)
的情形下,建立了污染源t1的密度函数的估计,并建立了此密度估计的L2收敛性。
与已有的研究结果相比,我们的估计方法只假定σ21与σ22成比例,而不需要
假设σ21和σ22完全已知,这使得我们的假定更切合实际应用,也将污染数据线性
回归分析的研究推进了一大步。应用工作者也可从中得到一个启示:在污染数据
的收集时,要尽可能考虑对个体进行重复观测。并且我们还考虑了污染源密度的
估计问题,给出了估计方法,这方面尚未见到同类研究。
在第四章中我们进一步将上述污染数据回归模型推广到半参数回归模型。定
义了如下一类纵向污染数据半参数回归模型:(公式略)
对上述模型,我们在假设σ22与σ21成比例的条件下,基于
构造了模型参数β,v,σ21和回归函数g的估计,并建
立了β,v,σ的估计的强相合性和回归函数g的估计的一致强相合性。与陈明华
(1998)对污染数据半参数回归模型的研究相比,我们不需要假设σ21与σ22完全
已知,因此,我们的假设条件更切合实际应用。
关键词:纵向数据,线性混合效应模型,污染数据,线性回归模型,半参数回归
模型,估计方法,渐近性质