论文部分内容阅读
目的系统引进logistic回归模型中自变量相对重要性的评价方法,开发SAS程序对目前推荐的两种方法(优势分析和相对权重)进行估计并应用于实际例子,合理估计并帮助解释自变量的相对重要性。同时引进和提出一种可视化工具——秩优势比图,快速、直观地评价自变量的相对重要性。方法1、在分析传统方法缺陷的基础上,比较系统地介绍优势分析和相对权重两种估计方法,分别应用具体实例分析,同时使用同一数据资料对这两种方法进行比较分析,并与传统方法相比较。2、介绍4种适用于logistic回归模型的R2类似统计指标,在同一模型中比较分析各个估计结果以获得更适合logistic模型的广义决定系数。3、通过logistic回归模型中优势比的秩比例变换,在同一图形中展示自变量的相对重要性关系。结果1、传统方法(如二元相关和标准回归系数)不能正确分解自变量间共享的贡献,各自变量的贡献权重总和超过模型的R2,且结果不稳定,无法准确估计共线性存在条件下的自变量相对重要性。2、在自变量间存在多重共线性条件下,优势分析和相对权重对自变量重要性的估计提供一个更合理可行的衡量方法,各自变量的重要性权重比例和均等于100%,且总能提供一个正向估计结果。资料3.1显示各自变量的优势权重分别为0.0975(19.88%)、0.1010(20.60%)、0.1835(37.32%)和0.1085(22.12%),其相对重要性排序与标准回归系数的排序不同,且结果表明在logistic回归模型中广义决定系数R2M和R2E更适合用于估计自变量对因变量的解释比例;比较同一子模型发现变量间存在完全优势关系和总体优势关系。资料3.2显示各指标的相对重要性排序均不同,相关和回归分析中某自变量的作用方向相反;各自变量的相对权重分别为0.012(1.8%)、0.022(3.3%)、0.077(11.5%)、0.085(12.6%)、0.036(5.3%)、0.117(17.5%)、0.088(13.1%)、0.229(34.1%)和0.005(0.8%)。资料3.3显示在同一资料中优势分析和相对权重的估计结果基本一致,两者之间差的平均绝对值为0.0025,各自变量的优势权重分别为0.0004、0.0024、0.0007和0.0001,相对权重分别为0.0003、0.0032、0.0007和0.0002,结果与标准回归平方的重要性排序相同,但标准回归平方的重要性比例之和超过100%,如完全标准回归平方等于112.8%,且优势分析和相对权重与标准回归平方的估计结果差异明显。3、秩优势比图可在同一图形中比较多个自变量的相对重要性,同时提供更详细的变量信息,虽然该方法和标准回归系数一样存在一定的限制性。资料4.2显示之前是否参加新农合对参合的意愿性影响最大;在之前参合的人群中,文化水平对参合意愿的影响相较于家庭人口数更重要,且高中及以上教育的人群更愿意参合,人口数小于三人的人群参合意愿性更强。结论1、当自变量间存在共线性时,优势分析和相对权重分析是评价自变量相对重要性的精确量化指标,不依赖于模型的具体结构,虽基于不同的数学理论基础,但产生的估计结果差异很小且均等于模型的可解释方差比例。优势分析能提供关于相对重要性的更多水平的优势权重,但随着自变量数目的增加,优势权重的计算变得繁重。而相对权重计算效率更高,在解释上更容易理解,两者可相互参考应用。2、秩优势比图在视觉上更清晰,可直观地反映自变量的相对重要性,虽有一定限制性,结合其他方法使用可回答现有方法中还不能完全解决的一些相关问题,有很多实际应用。