论文部分内容阅读
偏最小二乘法(Partial Least Squares,PLS)是一种新型的多元统计分析方法,它是普通最小二乘法(Ordinary Least Squares,OLS)的一种改进,许多实际问题中,需要使用自变量对因变量建立回归测方程,但当涉及的自变量较多时,自变量间往往存在着相关性,或者,当我们所取得的样本点数量小于自变量个数时,都可以引起多重共线性问题,这时如果仍采用OLS建模,那么这种共线性就会严重危害参数估计,破坏模型的稳定性。解决建模中的共线性问题,现有不少方法,其中偏最小二乘法是一种较为有效的方法。 本文对偏最小二乘法进行了探讨和研究,主要做了以下几方面的工作: 第一,本文提出了多重共线性问题,讨论了共线性在回归建模中引起的危害,并介绍了处理多重共线性的几种常用方法。 第二,本文讨论了单因变量PLS和多因变量PLS的算法,明确了单因变量PLS和多因变量PLS的不同。 第三,从多因变量PLS出发,提出成分提取的观点,结合主成分分析、典型相关分析的思想,对PLS算法做出了改进.这种基于成分提取思想下的PLS方法,不但具备原PLS方法建立预测方程的功能,而且对所提取的成分,还可以进行类似于主成分分析、典型相关分析的一些工作。例如,可以通过对提取的成分进行分析,来对自变量和因变量做出解释,这类似于主成分分析和典型相关分析中对成分的命名,可以测量成分对自变量和因变量的解释能力,这类似于典型相关分析中的典型冗余分析,还可以向典型相关分析一样,利用所提取的典型成分之间的相关,来判断自变量系统与因变量系统间的相关性。本文还就成分提取思想下的PLS算法,编写了Matlab程序,将原始数据代入后,可直接获得预测方程和各种分析结果。 第四,PLS方法最早产生于化学领域,现已被应用于对经济数据的研究中。本文在此基础上,将PLS法应用于教育研究中,选取大学某专业学生的高考成绩和大学一年级专业课成绩,应用PLS法建立高考各科成绩对其大学专业课成绩的预测模型,并对各影响度进行了相应的分析。同时,利用此数据,将偏最小二乘回归(PLSR)与普通最小二乘回归(OLSR)、主成分回归(PCR)、逐步回归建立的回归模型进行了比较,发现由PLS法拟合的回归方程,对由样本的变动所引起的扰动误差的影响最小,可见用PLS法建立模型最为理想.