论文部分内容阅读
后选择推断方法是建立变量选择模型后可以计算出所选变量回归系数的精确p值和置信区间的一种方法。该方案可以处理任意选择法,只要该选择法可以用一组y上的线性不等式来表示。该框架得出的条件假设检验可以应用广义线型模型或顺序回归过程中。本文首先对Lasso(Least absolute shrinkage and selection operator)方法的基本原理、性质和几何意义以及求解方法行了分析,通过仿真实验对比了最小二乘、岭回归和Lasso方法的性能,验证了Lasso方法解的稀疏性。之后,本文详细分析了后选择推断方法的原理和性质,研究了后选择推断方法应用的条件,即多面体条件集,并将Lasso方法用多面体定理表示。然后将后选择推断方法应用于广义回归模型和糖尿病数据集进行仿真实验通过对比验证此方法的稳定性。最后,本文阐述了将后选择推断方法应用于顺序回归过程的基本理论,详细分析了后选择推断方法应用于向前逐步回归、最小角回归和Lasso方法的成立条件,阐述了对LAR的截断高斯检验的一个关键的近似值,即间距检验。此方法在形式和计算方面更加简化。最后将后选择推断方法和间距检验方法应用于仿真数据和前列腺癌数据集中。从p值和置信区间两方面说明此方法较传统特征选择方法更准确有效。