论文部分内容阅读
分布理论是统计理论研究中的重要内容,随着研究的深入以及现代计算技术的提升,各种不同的适用于不同应用领域、形式更为灵活的众多统计分布不断被提出并成功应用于多数领域。时至今日,有关统计分布理论研究成果不断涌现。由Cooray&Ananda(2005)提出的组合分布理论是近年来统计分布理论的一次重要发展。由于其思想简单、形式灵活而受到理论界的青睐,十多年来,该理论不断完善、扩展,目前已有多种形式的组合分布被提出。本文借助于组合分布理论的思想,提出一类新的组合分布模型,此类模型形式更为灵活,根据参数的不同选择,可以同时表现为左偏、对称及右偏等三种分布形态,这为其在更大范围、更多领域的应用提供了可能。本文主要讨论组合分布模型扩展及其应用。导论部分交代论文的研究背景和意义,居民收入、城市规模以及保险索赔数据拟合有关文献,并简述了论文的研究思路、主要内容以及创新之处。论文接下来的部分具体分为五章:第一章讨论现有组合分布模型;第二章详细讨论了扩展组合分布模型;第三章讨论扩展组合分布模型的参数估计;第四章讨论扩展组合分布的统计检验;第五章将扩展组合分布模型用于居民收入、县域人口规模以及保险索赔;最后是结论及展望。各章具体内容为:第一章简要介绍了已有组合分布模型。根据混合权重是否固定,可以将组合分布分为混合权重固定的组合分布和混合权重不固定的组合分布两种。混合权重固定的组合分布模型是组合分布模型的基础,由Cooray&Ananda(2005)提出的对数正态-帕累托组合分布模型和由Ciumara(2006)、Cooray(2009)提出的威布尔-帕累托组合分布模型是此类模型的典型代表。由于权重固定,限制了这种分布使用的范围。因而,混合权重可变的组合分布模型就成为混合权重固定的组合分布模型的自然扩展,理论扩展中有两种主要形式,一种是Scollnik(2007)提出的Scollnik模型,这类模型主要有混合权重可变的对数正态-帕累托组合分布(Scollnik,2007)、混合权重可变的对数正态-帕累托Ⅱ型组合分布(Scollnik,2007)、混合权重可变的威布尔-帕累托组合分布(Scollnik&Chen,2012)、混合权重可变的威布尔-帕累托Ⅱ型组合分布(Scollnik&Chen,2012)、威布尔-斯托帕分布(Calder in-Ojeda&Kwok,2015)和对数正态-斯托帕分布(Calder in-Ojeda&Kwok,2015)等分布类型;另一种是由Nadarajah&Bakar(2014)提出的Nadarajah&Bakar模型,包括对数正态-帕累托Ⅱ型组合分布以及对数正态-布尔组合分布等在内的等17种分布类型(Nadarajah&Bakar,2014)。但仔细分析后会发现,Nadarajah&Bakar模型与Scollnik模型实际上完全一样,之所以没有引起重视,主要是因为这两类模型构建时没有采用相同的两种分布进行组合。第二章介绍了组合分布模型的理论扩展,提出第一类与第二类扩展组合分布模型,这两种扩展模型的第一种分布都是反向帕累托分布,第二种分布分别选择对数正态分布和威布尔分布。针对第一类扩展组合分布模型,提出第一类反向帕累托-对数正态组合分布(RPLC-Ⅰ)以及第一类反向帕累托-威布尔组合分布(RPWC-Ⅰ)等两种模型。在此基础上,提出了标准化第一类反向帕累-对数正态组合分布以及标准化第一类反向帕累托-威布尔组合分布。针对第二类扩展组合分布模型,提出第二类反向帕累托-对数正态组合分布(RPLC-Ⅱ)以及第二类反向帕累托-威布尔组合分布(RPWC-Ⅱ)等两种模型。并提出一种简化形式的第二类反向帕累托-对数正态组合分布与第二类反向帕累托-威布尔组合分布。之后,深入分析了扩展组合分布模型的统计性质。结果发现,在不同的参数选择下,RPLC-Ⅰ分布、RPWC-Ⅰ分布、RPLC-Ⅱ分布和RPWC-Ⅱ分布都可表现为左偏、对称及右偏等三种分布形状。这也就意味着,本文提出的扩展组合分布模型形式更为灵活。第三章为扩展组合分布的参数估计问题,这是应用此类模型中需要重点解决的一个问题。选择极大似然估计、矩估计、非线性最小二乘估计以及贝叶斯估计等四种方法对第一类反向帕累托-对数正态组合分布(RPLC-Ⅰ)、第一类反向帕累托-威布尔组合分布(RPWC-Ⅰ)、第二类反向帕累托-对数正态组合分布(RPLC-Ⅱ)以及第二类反向帕累托-威布尔组合分布(RPWC-Ⅱ)等四种分布类型分别进行估计。其中在极大似然估计部分给出四种组合分布模型参数极大似然估计的同时,也给出了期望Fisher信息矩阵和观测Fisher信息矩阵,这是求解参数估计量渐近方差、协方差的一种有效方法。而在模拟比较部分,根据平均偏差和均方误差等两个判断标准得出每种分布不同估计方法的优劣,这为后续研究中不同分布参数估计方法的选择奠定了基础。第四章探讨扩展组合分布模型的检验问题,选用概率图、相关系数以及常用的拟合优度检验等方法详细探讨扩展组合分布模型的检验问题。首先,研究了扩展组合分布概率图方法。其中RPLC-Ⅰ分布和RPWC-Ⅰ分布可以转化为不受参数影响的线性函数,而RPLC-Ⅱ和RPWC-Ⅱ分布则可以转化为只受混合比重影响的线性函数。其次,针对相关系数检验方法,根据四种分布的不同特点,模拟给出了不同样本容量下相关系数分位点值。同时给出四种组合分布情况下,四种备择分布情形下使用相关系数方法进行组合分布检验的功效分析结果。第三,针对拟合优度检验,模拟拟产生四种分布在Kolmogorov-Smimov检验、Cramer-von Mises检验和Anderson-Darling检验的临界值点。同时给出四种组合分布情况下,四种备择分布情形下使用三种拟合优度检验方法进行组合分布检验的功效分析结果。第五章将扩展组合分布模型用于收入分布、县域人口规模分布以及保险索赔等三个领域。首先是收入分布数据的拟合,所用数据来自中国健康与营养调查(CHNS)中历年农村居民家庭调查,发现RPLC-Ⅱ分布较其它一些分布更能够有效拟合中国居民收入对数。并且在此基础上基于不平等测度理论,给出了中国农村居民收入基尼系数、广义熵指数、Theil指数、Atkinson指数、Bonferroni指数以及Zenga指数等六种不平等测度的结果。其次是县域人口规模分布的拟合,所用数据来自中国建国以来历次人口普查中所获得县域(包括县级市)人口数。同样发现RPLC-Ⅱ分布较其它一些分布更能够有效拟合中国县域人口规模。在得到相应参数估计值后,也计算出了中国县域人口规模的不平衡状况。最后是保险索赔数据的拟合,所用数据来自美国某保险公司私人汽车保险索赔额,结果发现该保险数据取对数后可以使用RPLC-Ⅱ分布拟合。并在此基础上计算出了在险价值(Value at Risk,VaR)与尾部在险价值(Tail Value at Risk,TVaR)等风险测度指标。最后为结论及后续研究展望。在此部分,归纳总结了一下本文主要的理论研究结果及实证研究结果。指出目前研究中存在的不足,并对后续研究方向提供了思路。本文完成的主要工作和得到的主要结论为:1.本文提出了一种新的组合分布模型,并从理论上研究了此类分布的参数估计、模型检验等内容。根据组合分布混合比重是否可变,分为第一类扩展组合分布模型和第二类扩展组合分布模型。该类模型是以反向帕累托分布作为第一部分,以对数正态分布或威布尔分布作为第二部分,这样共提出两类、四种组合分布:第一类反向帕累托-对数正态组合分布(RPLC-Ⅰ)、第一类反向帕累托-威布尔组合分布(RPWC-Ⅰ)、第二类反向帕累托-对数正态组合分布(RPLC-Ⅱ)以及第二类反向帕累托-威布尔组合分布(RPWC-Ⅱ)。这两类扩展组合分布模型形式灵活,在一定的参数选择下,可以表现为左偏、右偏及对称等三种形状。并依次探讨了扩展组合分布的形状、参数估计、分布检验等内容。2.在参数估计部分,详细研究了四种扩展组合分布的极大似然估计(MLE)、矩估计(MM)、最小二乘估计(NLS1、NLS2)以及贝叶斯估计(Bayes)等四种估计的理论推导过程及模拟比较结果。模拟比较发现:RPLC-Ⅰ分布的参数估计建议使用MM估计或者Bayes;RPWC-Ⅰ分布参数估计时,首选MLE估计,其次是MM估计或NLS2估计;RPLC-Ⅱ分布参数估计时,首选MLE估计,其次是MM估计或NLS1估计;RPWC-Ⅱ分布参数估计时,首选MLE或MM估计,其次是NLS1估计或NLS2估计。3.扩展组合分布的检验可采用概率图、相关系数以及Kolmogorov-Smirnov检验(K-S 检验)、Cramer-von Mises 检验(C-vM 检验)以及 Anderson-Darling 检验(A-D检验)等三种拟合优度检验方法。其中概率图方法和相关系数法具有相同的理论基础。相关系数检验功效分析发现,当样本容量高达1000时,RPLC-Ⅱ分布以及RPWC-Ⅱ分布检验功效都在0.6之上,而RPLC-Ⅰ分布、RPWC-Ⅰ分布的检验功效则能够达到1。三种拟合优度检验功效分析发现,当样本容量达到1000时,RPLC-Ⅰ分布、RPWC-Ⅱ分布的三种检验的最低功效约为0.9;RPLC-Ⅱ分布的三种检验的最低功效皆超过0.9;而RPWC-Ⅰ分布三种检验的检验功效则能够达到1。比较而言,当超过一定样本容量后,四种分布情形下三种检验功效结果为A-D检验功效最大,C-vM检验功效次之,K-S检验功效最低。4.扩展组合分布可用于收入分布、人口规模分布以及保险索赔分布建模。不仅如此,基于扩展组合分布,也可以计算出与之有关的基尼系数、广义熵指数、Theil指数、Atkinson指数、Bonferroni指数以及Zenga指数等不平等测度,便于发现所研究现象的不平等状况。另外,基于扩展组合分布,也可以计算出与之有关的在险价值(VaR)、尾部在险价值(TVaR)等风险测度指标,便于企业及时掌控风险。