论文部分内容阅读
【目的】统计学中有两个主要学派:经典统计学派和贝叶斯统计学派。统计学中研究最为广泛的是回归分析,回归分析模型可以根据样本建立模型,用来探索和筛选与结果有关的因素,也可以对新样本进行预测。回归分析的种类繁多,比如多重线性回归、Possion回归、Logistic回归、医学中经常用于生存资料的Cox比例与非比例风险回归模型等等,可以根据具体数据资料的类型选择合适的回归模型。经典统计在回归分析中遇到很多难题,比如异常点的发现与剔除,自变量共线性的诊断和筛选及消除共线性的策略。虽然经典统计方法都有相应的解决办法,但是,有时可能会降低模型的精度。本文的目的是从不同资料类型出发,分别采用经典统计学和贝叶斯统计学建立回归分析模型,比较两种方法建立模型的优劣,便于研究者如何根据资料的类型和所具备的前提条件选择合适的统计分析方法。【内容】本文通过查阅、整理和分析国内外有关经典统计与贝叶斯统计方法的文献,对经典统计学和贝叶斯统计学回归分析的原理进行介绍和总结。拟分析的统计资料包含质量较好的资料、存在共线性的资料、存在异方差的资料、存在缺失值的资料和二值资料,分别使用经典统计和贝叶斯统计建立相应的回归模型。【方法】当结果是定量变量的资料时,样本量较少时只评价拟合效果,使用相对误差绝对值的均值(Abserror),残差平方和(SSress)和决定系数(R~2)作为评价指标。样本量较大时,首先用全部样本建立模型评价拟合效果,评价指标与样本较小时的评价指标相同;再用部分样本建立模型,评价训练集的拟合效果使用Abserror,残差均方(MSE)和R~2作为评价指标;评价测试集的测试效果使用Abserror,MSE和标准化均方误差(NMSE)作为评价指标。本文采用十折交叉验证方法拆分大样本资料。结果是二值变量的资料:建立模型后,求回代后的灵敏度、特异度、准确率和ROC曲线下面积作为评价指标。【结果和结论】经过本文研究发现,数据本身质量较好,不存在共线性和异常点时,经典统计学的拟合效果最好;指定先验信息的贝叶斯方法预测效果最好。但是从总体上来说,评价指标的结果相差不大,两种方法均可以。若没有足够的先验信息,可以用无信息先验代替。自变量之间存在共线性时,经典统计建模方法选择主成分回归和岭回归法,并与贝叶斯方法比较。若以“Abserror和SSress最小,R~2值最大”为评价拟合效果的话,无信息先验的贝叶斯方法拟合模型最优,指定先验分布的次之,主成分回归再次之,岭回归分析最后。可见如果存在共线性情况下,对贝叶斯方法影响比较小。当没有合适的先验分布时,可以选用无信息先验代替。数据存在异方差时,使用分位数回归分析建立模型,取因变量的下四分位数(q1)、中位数(q2)和上四分位数(q3)建立模型。贝叶斯统计学由于指定先验信息后,参数轨迹图不收敛,因此只选用无信息先验。贝叶斯统计方法的各个分位数指标均较好,拟合效果和预测效果都要优于经典方法。数据存在缺失值时,在剔除缺失值和对缺失值进行填补后,基于经典统计方法建立的模型从拟合效果和预测效果上看都要优于贝叶斯统计方法。在因变量是二值变量的Logistic中,界值取0.5时,从预测的准确率上看是没有差别的。使用各个界值计算相应的灵敏度和特异度,发现两种统计方法求得的结果也相差不大;计算的ROC曲线下面积,对于本论文中所分析的资料而言,无信息先验的最大是0.93474,但仍小于经典统计Logistic过程自动求得的面积0.9386。此外,本文中Logistic回归使用的贝叶斯方法建立的ROC曲线,截取一部分界值,手动计算的ROC曲线下面积比较大,但是操作比较繁琐。在实际使用中,需要根据具体需求使用相应的统计方法。