论文部分内容阅读
大量的计数数据存在于医药卫生、经济、农业以及保险等众多领域中,为了处理这类数据,我们常用一些经典的离散模型,比如,泊松模型和负二项模型。然而,在实际问题中,该类计数数据常常包含大量的零,此时,标准的离散分布可能已经不再适合它们,而近几年引起广泛关注的零过多模型成为分析这类数据的有效方法。另外,实际数据中常常涉及大量的变量,为了建立合理的模型,有必要对变量进行选择。本文结合零过多泊松回归模型详细探讨了变量选择问题。论文首先介绍了零过多泊松回归模型,接着,基于lasso、弹性网、SCAD等各类惩罚函数,给出了相应的零过多回归模型的惩罚对数似然,并基于泰勒近似方法构建了伪数据,同时利用坐标下降法研究了变量选择问题。其次,在lasso、弹性网等惩罚下,论文基于Gibbs抽样和MH算法,研究了贝叶斯lasso和贝叶斯弹性网等变量选择方法。为了说明所研究方法的有效性,论文给出了不同样本量、不同零比例、不同惩罚下变量选择的模拟研究。最后,通过运用零过多泊松模型对一组医院门诊数据进行变量选择,进一步说明文中方法的有效性。