论文部分内容阅读
对于有限混合模型中的模型选择,混合成分数目的检验问题一直是一个难点。近些年有限混合模型在经济学、工程学、基因学、生物学和医学等领域都得到了广泛的应用。对于一组实验数据,我们要选择一个更合适的数学模型来描述这组数据,这就需要一个有效的混合成分数目的检验方法。随着有限混合模型的广泛应用,越来越多的学者对此进行了深入的探讨与研究。对于混合成分数目的检验问题。目前主要有两种方法,一是信息准则法,包括Akaike信息准则法、Bayes信息准则法、积分的分类似然准则法等。但是大量的研究显示:Akaike信息准则法往往会导致过多的估计混合成分数目,并且在有限混合模型下不满足正则条件;Bayes信息准则法存在着参数的不可识别和正则条件不满足的问题;虽然积分的分类似然准则法克服了Bayes信息准则的缺点,但是它往往适用于分类数目较多的情形。二是似然比检验法,包括似然比检验法和修正似然比检验法。似然比检验统计量在标准的正则条件下服从一个渐进零分布,其形式是高斯过程的上确界,然而似然比检验统计量渐进零分布的形式及其复杂,很难求出。修正似然比检验法可避免上诉的问题,将似然比函数减去一个惩罚项,从而能有效地避免边界值问题和参数不可识别问题。当样本量充分大时,修正的似然比检验统计量收敛到卡方型分布。似然比检验统计量依赖于参数,而修正似然比检验统计量是参数独立的。修正似然比检验法不仅保留了似然比检验法的优点,而且具有更简单、更容易应用的渐进理论。正因如此,近些年修正似然比检验法在有限混合模型中得到了广泛的应用,是目前混合成分数目检验问题的首选方法。然而,修正似然比检验法的渐进理论目前仍旧没有得到完全的解决。对于渐进零分布的一般形式,目前也没有一个清晰的解决方案。本课题为补充渐进理论,引入一个负定性条件,讨论渐进分布的一般形式,开展理论和实验研究。介绍修正似然比检验方法及渐进理论,并给出在有限混合模型下修正似然比检验的渐进分布定理,为本文课题研究提供理论基础。针对伽马混合模型和正态混合模型,引入一个负定性条件,讨论其修正似然比检验渐进零分布的一般形式。通过运用渐进分布定理,开展详细的论证分析,包括无参数限制和有参数限制的伽马混合模型、无参数限制和有参数限制的正态混合模型。本课题理论结果证明:无论对于有参数限制还是无参数限制的伽马和正态混合模型,当引入一个负定性条件时渐进理论依然成立,这与前人得到的结论是一致的。通过大量的仿真实验来验证渐进理论的精确性,包括无参数限制和有参数限制的伽马混合模型、无参数限制和有参数限制的正态混合模型以及无参数限制和有参数限制的贝塔混合模型。在仿真实验中,我们选取样本量500和1000、显著性水平0.01、0.005、0.1和惩罚项log(50)、5、1。其一,对于伽马混合模型,我们进行了两组仿真实验。一组是无参数限制的伽马混合模型,选取四个参数值不同的伽马分布;另一组是有参数限制的伽马混合模型,基于第一组实验,将伽马混合模型的参数值设定为相等。通过R仿真得到每组仿真实验的拟合图、与显著性水平的比较以及在零假设检验下渐进零分布的一般形式。通过拟合图可以看出两条曲线几乎重合,从而验证了理论的精确性。并通过比较显著性水平得出拒绝率超过显著性水平,拒绝原假设。再通过比较伽马混合模型的渐进零分布,进一步验证理论结果与仿真结果的一致性。因此,伽马混合模型的渐进理论得以证明;其二,对于正态混合模型,我们进行了两组仿真实验。一组是无参数限制的正态混合模型,来自四个参数值不同的正态分布;另一组是有参数限制的正态混合模型,设定正态混合模型中两个参数值相等。通过对比拟合效果图、显著性水平以及渐进零分布,我们得出正态混合模型的理论结果与实验结果是一致的;其三,对于贝塔混合模型。类似于伽马混合模型和正态混合模型的分组形式,实验包括四组参数值不同的和两个参数值相等的贝塔混合模型。通过对比拟合效果图、与显著性水平的对比以及渐进零分布,我们得出贝塔混合模型的理论结果与实验结果是也是一致的。此外,根据仿真结果开展对算法参数值选择的详细分析,包括惩罚值、初始值和迭代次数。通过对比分析每个单一因素、参照显著性水平和混合比例值,来验证参数值选择是否对求解的精度有影响。本课题实验结果表明:无论是伽马混合模型还是正态混合模型,渐进理论都与仿真实验结果是一致的;此外我们也验证了惩罚项的值对实验的结果几乎没有影响;合理的选择初始值和混合比例值,不仅能减少运算的时间,还能提高解的精度;当我们提高样本量时,仿真结果会更精确。应用修正似然比假设检验方法,开展了中国不同城市房价数据和基因表达数据的模型选择分析。基于此,我们选出更适合的数学模型,并求出每个模型所对应的参数值、似然比值和混合成分数目。其中,对于房价数据的分析,我们选取了从2014年6月到2015年5月全国89个城市的房价数据,按照城市等级的划分,分为一线城市、二线城市、三线城市和四线城市。由于一线城市的数据过少,我们将一线城市和二线城市合并为一个数据集来进行研究。分别拟合出符合每个等级的数学模型和拟合图。一般地,房价数据的曲线应该是正态分布,但是我们从数据的拟合图中可以看出,在每一个拟合图中曲线成双峰,很显然房价数据不满足一维的正态分布。导致这个结果的原因很可能是来自于城市等级划分的原则。例如,像经济和人口等因素是划分城市等级的主要因素,一些其他的政治和历史等因素没有考虑全面。对于分子学和细胞生物学的研究工作,有助于我们对人类中枢神经系统功能、功能复杂性和病理进展的理解。随着基因组技术、转录组技术和诊断技术的进步,这一领域已经进一步发展和完善。目前,在研究多种微阵列技术分析中,RNA序列是首选的方法。然而,目前仍然没能有效的基因表达数据的分析。我们选取了来自于英国大脑表达团队的实验数据,编号为GSE46706。数据来自10个解剖的大脑区域中采集基因表达数据,共1231个实验样本。通过应用二维的正态混合模型,求出每个大脑区域的拟合图和参数值。并将差异表达从非差异表达的转录物中分离出来。实验结果表明:二维正态混合模型比一维正态分布能更精确的描述这组数据。因此,无论是对于房价数据还是基因表达水平数据,混合模型都展现其描述数据的灵活性和精确性。混合模型在描述随机数据上有着广泛的应用。尤其是近些年在基因表达上的应用,混合模型提供了一个更便捷、更精确的方法来研究基因差异表达。综上所述,修正的似然比检验方法对混合成分数目的检验问题可行且相对可靠。本文不仅补充了修正的似然比检验的渐进理论,推广了混合模型在基因表达上的应用,也为解决渐进分布的求解问题提供了可供参考的方法。