论文部分内容阅读
线性模型是数理统计学中发展较早、理论丰富而且应用性很强的一个重要分支。过去的百余年中,线性模型不仅在理论研究方面甚为活跃,获得了长足发展,而且在工农业、气象地质、经济管理、医药卫生、教育心理学等领域的应用也日渐广泛。作为线性模型前沿科学研究的一部分,污染线性模型由于它在实际生活中的广泛存在性,越来越受到人们的关注,具有很高的应用价值。
污染数据与截断数据不同,除了具有不同的提出背景和表现形式之外,它们还是一组不完备的数据。关于污染数据的统计分析,很久以前就开始引起科学家们的关注。早在20世纪60年代,统计学家Huber就已经研究了基于高斯分布下污染数据的极大似然估计,并提出了著名的Huber分布以作解释。所谓的“污染”模型即为观察值分布未知或至少部分未知的模型,而且它是由于污染源的干扰所致,而这种污染源是有别于模型本身,通过观察污染数据得到的(这些数据假设分布已知)。统计分析的目的主要是估计污染系数和模型中的其它参数。近些年,在此领域已颇有成就。
本文首先考虑1964年Huber提出的一类“被污染的正态分布族”:FN,ε={f:f=(1-ε)N(0,1)+εg,g∈Fs}其中ε为污染比重,Fs为一切关于原点对称的一维概率密度的族。在其基础上,对有关污染线性模型的问题做出了总结,并结合实例讨论了污染线性模型在实际生活中的应用。
论文的第一部分是引言和相关引理。在这部分中首先交代了有关污染线性模型的发展历史,并对整篇论文做了简要的概括。然后提出了在论文主体部分中所用到的引理及重要的不等式。
论文的第二部分是这篇论文的主体部分。在这部分中,从三个不同的角度给出了在引言中提出的三种不同污染线性模型的讨论结果。第一部分,利用矩估计和极大似然估计两种不同的统计方法,提出了模型Ⅰ和模型Ⅱ的参数估计值,并提出某些统计量的不变性。第二部分,将模型Ⅰ和模型Ⅱ转换为比较利于统计研究的半参数污染模型,并通过若干定理的证明给出了半参数模型中参数的强相合性和渐近正态性。第三部分,在总结前两部分的基础上给出了模型Ⅲ中的参数的非参数估计,并证明了这些参数的强相合性,另外它们的一致收敛速率是可以达到的。
论文的第三部分是论文的相关展开。在这部分中,将污染线性模型展开为纵向数据线性混合效应模型:
yij=xTijβ+zTijbi+εij,i=1,…,m;j=1,…,ni其中bi为随机效应部分,{εij}是i.i.d.具有方差σ2的随机误差序列。在此部分是引用文献[4]的结果,给出了随机效应bi,β及误差方差σ2的估计,并在一定条件下证明了估计量的强相合性和渐近正态性。
论文的第四部分是论文的主要应用。在这部分中,通过三个不同的实例分析了污染线性模型的实际应用价值。这三个实例分别讨论了污染线性模型的最小二乘估计、污染线性模型的假设检验和污染线性模型的非参数拟合。