论文部分内容阅读
变量选择作为数据分析的重要方法之一深受广大学者的青睐。近年来,高维、强相关又带有冗余的数据广泛应用在自然科学及生物医学学科等领域,怎么选用合适的变量选择方法解决该类问题已是当前研究中的关键。本文针对高维、强相关的数据进行研究,做了如下工作:1.提出了一种改进权值的自适应弹性网方法(G_Aenet),该方法以偏最小二乘回归系数的权重代替原始权重,使新方法能更好地选取群组中的重要变量和去除群组中的噪音变量。通过理论证明,说明了该方法具备自适应群组效应;并通过模拟实验和数值实例,比较Lasso惩罚及传统的自适应弹性网等变量选择方法,用相对误差RMSE和选择精度标准TP(FP)作为精度和模型复杂度的标准,验证了该方法的有效性,实现了提高模型精度,精简模型复杂度的目的。2.基于偏最小二乘回归及传统的自适应弹性网方法均可解决强相关数据问题,但又存在偏最小二乘的模型解释性差和传统的自适应弹性网方法的模型精度不高等缺点,故提出了一种改进的强相关数据的变量选择方法(Aenet_PLS)。该方法将偏最小二乘方法与传统自适应弹性网方法求得的估计系数做线性组合,并以此得到的系数建立回归模型,使新模型具备高精度、解释性强的双重优点。