论文部分内容阅读
计数数据是一类常见的离散型数据,广泛存在于心理学、遗传学、生物医学和保险等多个研究领域中。拟合计数数据最常用的回归模型是Poisson回归模型,该回归模型被广泛的应用于各类实际问题的分析和研究中。如果观测数据方差的变化大于其均值,称该数据是散度偏大或超散度的计数数据。导致计数数据散度偏大的原因有很多,可能是数据缺失的影响,也有可能是存在零膨胀,还有可能是因为总体来源的“非同质性”以及上述因素的综合作用等。本文主要针对具有零膨胀和总体来源的“非同质性”等特征的计数数据进行研究和分析。零观测值过多的计数数据是一类特殊而又在实际生活中常见的计数数据类型,零膨胀计数数据的研究已成为当今国内外的一个热点问题,相应的研究模型也从最开始的完全数据下的零膨胀Poisson模型、零膨胀广义Poisson模型以及零膨胀负二项模型推广到现在的缺失数据下的零膨胀模型和零膨胀混合模型等。在上述背景下,本文首先较为系统地介绍了零膨胀模型的基本建模原理和几类传统的零膨胀模型。传统的零膨胀模型是处理简单零膨胀计数数据的有效模型,主要包括零膨胀Poisson模型、零膨胀广义Poisson模型以及零膨胀负二项模型等。其模型的参数估计通常采用广义线性模型框架下的极大似然估计方法。零膨胀是否存在是该类模型研究分析的一个比较关键的问题,它影响着对于具体问题该如何建模,本文介绍了score检验的方法对该类观测值是否发生了零膨胀进行检验。在此基础上,本文还进一步考虑了一类有限ZIP混合回归模型,它主要是用来分析具有“非同质性”的零膨胀计数数据。本文重点针对具有两个混合成份的ZIP混合回归模型建立了参数估计的极大似然估计程序。由于标准EM算法会使得其参数估计收敛到局部极大值,而非全局极大值。针对这个缺陷,本文对传统的EM算法进行修正,提出一种随机EM算法,即SEM算法,该算法很好的避免了传统EM算法的缺陷,使得能够找到全局最优解。局部影响分析是用来研究模型对扰动的敏感度的一种分析方法,它也是评介模型拟合优度的重要手段。统计推断研究中少不了模型的局部影响分析,本文给出了局部影响分析的经典方法,包括似然距离、缺失数据下的Q函数和保形法曲率等方法。针对ZIP混合回归模型的局部影响分析,本文主要是在全局扰动及逐项扰动这两种机制下建立起相应的局部影响度量,并采用了基于一阶影响度量的方法来衡量并评估零膨胀Poisson混合回归对于零点膨胀以这一基本假设的敏感程度。