岭回归分析中广义岭估计的一种改进方法

来源 :数学学习与研究 | 被引量 : 0次 | 上传用户:dsmhjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】对于多重共线性条件下线性回归模型系数的有偏估计,统计学家提出了岭回归估计,Hoerl和Kennard提出了广义岭估计[1].本文主要讨论广义岭估计的进一步推广,基于均方误差和均方残差的比较,给出一种解决问题的新方法.
  【关键词】线性回归模型;广义岭估计;均方误差;均方残差
  一、引言
  为消除或减弱设计阵的复共线性对参数估计的不良影响,国内外学者提出了各种有偏估计,如,岭估计[2]、主成分估计等等,这些估计在均方误差意义下可以优于LS估計[3].但是,在某种情况下还有一定的缺陷.
  定义1[4]我们引进线性回归模型的典则形式:
  Y=Zα ε,E(ε)=0,Cov(ε)=σ2In,(1)
  这里,Z=XΦ称为典则变量,α=Φ′β称为典则参数,其中Φ=(φ1,φ2,…,φp),且φ1,φ2,…,φp为X′X的对应特征根λ1≥λ2≥…≥λp>0的标准化特征向量.所以Z′Z=Λ=diag(λ1,λ2,…,λp).则α的LS估计为=(Z′Z)-1Z′Y=Λ-1Z′Y.其狭义岭估计为(k)=(Λ kI)-1Z′Y=(Λ kI)-1Φ′X′Y.在岭回归估计法的基础上,有学者提出了广义岭回归估计法,定义为β(k)=(X′X ΦKΦ′)-1X′Y,其中K=diag(k1,k2,…,kp)>0.
  本文主要是在前人提出的广义岭估计的基础上,对其中的一部分做了进一步的探讨与研究,并加以改进.首先,讨论广义岭估计的主要缺陷.
  第一,只有在较小特征根所对应的特征向量的方向上估计才是不精确的,而在大的特征根所对应的特征向量的方向上估计是准确的.因此,我们只需要修正X′X全部对角元的一部分就可以,也就是只对X′X的接近于0的特征根进行修正.广义岭估计其实是对β进行了过分的压缩.
  第二,广义岭估计的残差平方和为
  RSS(K)=(Y-Xβ(K))′(Y-Xβ)
  =(Y-Xβ)′(Y-Xβ) (β(K)-β)′X′X(β(K)-β)
  =RSSmin ΔRSS.
  这说明广义岭估计在降低均方误差的同时,又使得残差平方和增大.为了得到良好的拟合效果,我们当然要降低均方误差以使估计更接近真值,但又不能不顾及残差平方和的增大.
  定义2[5]对于线性回顾模型,定义1-k型广义岭估计β1-k(K)=(X′X ΦK0Φ′)-1X′Y.
  其中,K0=11ki 1kp,k>0,i=t,t 1,…,p.
  设X′X的较大的特征根有t个,t为正整数,且0≤t≤p,则需要修正的小特征根有(p-t)个.在多重共线性的情况下,X′X的特征根发生两极分化的结果可以人为地确定该对哪些特征根进行修正.由定义可以看出,β1-k(K)是广义岭估计类β(K)的一种估计.当ki=0,i=1,2,…,p时,β1-k(K)即化为LS估计.对于线性回归方程典则形式(1),定义1-k型广义岭估计α1-k(K)=(Λ K0)-1Z′Y式中,Z=XΦ,α=Φ′β,其中Φ=(φ1,φ2,…,φp),且φ1,φ2,…,φp为X′X的对应特征根λ1≥λ2≥…≥λp>0的标准化特征向量.所以Z′Z=Λ=diag(λ1,λ2,…,λp).K0定义同上.
  二、对β1-k(K)与β(K)的均方误差(MSE)进行比较分析
  因为β1-k(K)是β(K)的一种特殊情况,先来看β(K)的MSE.
  MSE(β(K))=σ2∑pi=1λi(λi ki)2 ∑pi=1k2iα2i(λi ki)2 .
  其中,K=diag(k1,k2,…,kp)>0,对ki(i=1,2,…,p)求偏导数,并令其偏导数为0,得MSE(β(K))ki=2α2ikiλi(λi ki)3-2σ2λi(λi ki)3=0.解出,当ki=σ2α2i(i=1,2,…,p)时,MSE(β(K))达到最小.
  将上式中正定对角阵K用本文提出的K0替换,即得
  MSE(β1-k(K0))=E‖β1-k(K0)-β‖2
  =tr[Cov(β1-k(K0)) (Eβ1-k(K0))-β(E(β1-k(K0))-β)′]
  =σ2tr((Λ K0)-1Λ(Λ K0)-1Φ′Φ) tr[Φ((Λ K0)-1Λ-I)αα′((Λ K0)-1Λ-I)Φ′]
  =σ2∑ti=1λi(λi 1)2 σ2∑pi=t 1λi(λi ki)2 ∑pi=t 1k2iα2i(λi ki)2 .
  同理,当ki=σ2α2i(i=t 1,t 2,…,p)时,MSE(β1-k(K0))达到最小.此时,将ki=σ2α2i(i=1,2,…,t)代入,得
  MSE(β(K))-MSE(β1-k(K0))
  =σ2∑ti=1λi(λi ki)2 ∑ti=1k2iα2i(λi ki)2-σ2∑ti=1λi(λi 1)2
  =∑ti=11 2λi-kiλi(1 λi)2(λi ki).(2)
  另外,当ki→0(i=1,2,…,p)时,MSE(β(K))ki=2α2ikiλi(λi ki)3-2σ2λi(λi ki)3<0.MSE(β(K))ki在ki≥0是连续函数,于是当ki充分小,MSE(β(K))  由此可以得到结论,改进后减小了多重共线性对参数估计的危害.在理论上MSE(β1-k(K))的最小值要大于MSE(β(K))的最小值.虽然前者比后者的对于LS估计β的改进小,但是这种改进还是合理的.后者改进偏大,超过了应该压缩的程度.   三、对β1-k(K)与β(K)的均方残差(MSR)进行比较分析
  由上可知
  MSE(β(K))=E(RSS(β(K)))
  =E(Y-Xβ(K))′(Y-Xβ(K))
  =E[(Y-Xβ)′(Y-Xβ) (β(K)-β)′X′X(β(K)-β)]
  =MSR(β) ΔMSR(β(K)).
  其中,MSR(β)=(n-p)σ2为参数β所有估计的均方残差的最小值.ΔMSR为广义岭估计对LS估计的修正所造成的MSR的增量,下面我们来考虑ΔMSR项.
  ΔMSR(β(K))=E‖Xβ(K)-Xβ‖2
  =E‖Zα(K)-Zα‖2
  =E[Z(Λ K)-1Λα Z(Λ K)-1Z′ε-Zα-ZΛ-1Z′ε]·[Z(Λ K)-1Λα Z(Λ K)-1Z′ε-Zα-ZΛ-1Z′ε]
  =α′((Λ K)-1Λ-I)Λ((Λ K)-1Λ-I)α σ2tr(Λ-1((Λ K)-1Λ-I)Λ((Λ K)-1Λ-I))
  =∑pi=1λiα2ik2i(λi ki)2 σ2∑pi=1k2i(λi ki)2,
  式中的K阵同上定义.将上式中正定对角阵用本文提出的K0替换,即得
  ΔMSE(β1-k(K0))=E‖Xβ1-k(K0)-Xβ‖2
  =E‖Zα1-k(K0)-Zα‖2
  =α′((Λ K0)-1Λ-I)Λ((Λ K0)-1Λ-I)α σ2tr(Λ-1((Λ K0)-1Λ-I)Λ((Λ K0)-1Λ-I))
  =∑ti=1λiα2i σ2(1 λi)2 ∑pi=t 1(σ2 λiσ2i)k2i(λi ki)2,
  MSR(β(K))-MSR(β1-k(K0))
  =∑ti=1(σ2 λiα2i)k2i(λi ki)2-∑ti=1λiα2i σ2(1 λi)2
  =∑ti=1(σ2 λiα2i)[k2i(1 λi)2-(λi ki)2](λi ki)2(1 λi)2
  =∑ti=1(σ2 λiα2i)λ2i(k2i-1)(λi ki)2(1 λi)2.
  若想得到MSR(β(K))>MSR(β1-k(K0)),則需要k2i>1.
  综上所述,当1  MSE(β(K0))  MSR(β)  当ki>1λi 2时,
  MSE(β(K))  MSR(β)  四、结束语
  以上对广义岭估计参数的改进是有效的,此时减小了广义岭估计过度膨胀的残差平方和.广义岭估计在降低均方误差的同时使得残差平方和增大,对数据的拟合变坏.以上对广义岭估计的尝试性改进有其合理性,但是其使用范围还是有限的.
  【参考文献】
  [1]Hoerl A E,Kennard R W.Ridge Regression,Biased Estimation for Nonorthogonal Problems[J].Technometrics,1970(12):55-67
  [2]何秀丽.多元线性模型与岭回归分析[D].武汉:华中科技大学,2005.
  [3]戴俭华,等.岭估计优于最小二乘估计的条件[J].数理统计与应用概率,1994(2):53-58.
  [4]何良材.岭回归估计β^(k)的一个特性及其应用[J].重庆大学学报,1990(13):127-133.
  [5]李兵.线性回归模型参数有偏估计的进一步探讨[D].桂林:桂林电子科技大学,2007.
其他文献
作为明代万历年间闽派诗人的代表,谢肇浙的生平(1567—1624)大致与万历朝(L573—1620)相当.置身于万历文坛复古派势力余威尚存,公安三袁崭露锋芒的时期,谢肇浙的诗歌创作“大
基于ERS1/2影像,针对沛城矿二二采区,利用DOR IS软件进行了D-InSAR处理,得到该采区的下沉值,并在与实测下沉值进行对比后,得到了实测和D-InSAR监测下沉值之间的差值与距离的
以矿山应用的物资管理及内部市场为例,阐述了UML在管理信息系统开发与设计中各阶段的主导思想、应用和意义,着重讨论和解决了UML在完成各阶段主要任务中的应用场合、分析设计
记者昨获悉,国家安全监管总局、国家煤矿安监局日前印发《关于深入持久开展煤矿安全质量标准化工作的指导意见(征求意见稿)》(下称《指导意见》),列出了煤矿安全质量标准化目标,并要
在中国现代作家中,林语堂的生活经历是很独特的.他一生的大部分时间是在国外度过的,他的大部分作品是用英文写的.小学、中学、大学,林语堂进的都是教会办的学校,大学毕业后在
高校国防教育是以普通高校学生为对象,以国防和现代化建设为目的,以教育为手段的特殊的教育。文章分析了我国当前普通高等学校在国防教育中存在的问题,论述了国防教育改革和发展
【摘要】每节数学课都应该是不可重复的激情和智慧相伴生成的过程,而不是千篇一律的僵化的程序,为此,教师根据教学内容选择合适的教学策略显得尤为重要.  【关键词】操作;合作  《课标》指出:教师若没有有效的教学理念,不掌握有效的教学策略,即使拥有理想的课程计划、课程标准和教科书,那么为了每名学生的发展也只是一句空话.为此,每一节数学课都应该是不可重复的激情和智慧相伴生成的过程,而不是千篇一律的僵化的程
期刊
培养学生具有阅读浅显文言文的能力,是中学语文教学的重要任务之一。《九年义务教育全日制初级中学语文教学大纲》对文言文的教学要求是“读文言课文,要了解内容,能顺畅的朗
根据政府企业间的关系、产品市场和金融市场的作用、企业组织原则、技术作用等方面的不同,可将资本主义国家划分为以美国为代表的自由市场经济国家和以德国、日本为代表的协调