论文部分内容阅读
随着计算机科学的发展,我们获取数据的能力越来越强,数据的获取场景越来越多样化,导致了数据的维度和数据量不断大幅度增加,产生了大量的高维数据问题。这样的高维数据在基因,金融,互联网领域出现得越来越多。例如:在蛋白质的分类问题中,我们往往是通过对蛋白质的基因对进行测序,从而根据不同蛋白质所蕴含的不同的基因对来区分不同种类的蛋白质。但是在实际操作过程中,由于基因测序的成本非常高,导致我们的样本量(n)非常少,但是每个样本所蕴含的基因对(p)却是成千上万,这就产生了一个“小n大p”的问题。对于这样的“小n大p”问题,经典的统计方法往往会失效或者犯第一类错误(原假设为真的情况下拒绝原假设)的概率很大。产生这一现象的原因可以从随机矩阵领域中的Mar?henko-Pastur分布的分布行为中看出:在高维数据的情形下,样本协方差矩阵所对应的特征值的波动开始和总体协方差矩阵所对应的特征值的波动发生显著性的偏差,这使得样本协方差矩阵不再是总体协方差矩阵的有效估计,自然的,高维情形下,样本相关性矩阵也不再是总体相关性矩阵的可靠估计了。这一事实导致许多经典的统计方法在高维数据的情形下表现非常糟糕,在高维统计检验的问题中,如果依然对高维数据应用低维的经典方法则往往会以较大的概率发生第一类错误。因此,在过去一段时间的研究工作中,提出新的统计方法以应对高维数据成为了现代统计学的主要挑战。由于协方差矩阵和相关性矩阵在许多统计方法中扮演着十分重要的角色,因此在高维统计分析中,关于高维协方差矩阵和相关性矩阵的的问题又是其中至关重要的核心问题。皮尔逊协方差(下称“协方差”)往往被用来刻画不同的变量之间是否有线性关系,而由于现实数据中往往存在着不同的量纲,例如:身高数据和年龄数据,体重数据和摄入食物质量的数据,这样量纲的不同将会使得不同性质的变量之间的协方差无法比较,因此协方差往往需要被标准化来去量纲,从而可以达到比较不同性质的变量之间的相关性大小的目的。这样标准化之后的协方差我们就称之为皮尔逊相关系数(下称“相关系数”)。由不同变量之间的协方差构成的矩阵被称为协方差矩阵,由不同变量之间的相关系数构成的矩阵被称为相关性矩阵。在统计分析中,协方差矩阵和相关性矩阵的相等性的问题往往受到格外的关注,因为有很多的统计方法是建立在协方差矩阵或相关性矩阵相等的假设之下的。例如Fisher的线性判别分析就建立在两个样本的协方差矩阵相等的假设之下。因此,在高维数据分析中我们经常有必要事先检验两个样本的总体协方差矩阵或相关性矩阵是否相等,否则我们的统计方法可能会难以实施。在检验协方差矩阵和相关性矩阵的相等性的问题上,传统的方法往往是采用由Kullback在1969年提出的似然比统计量(likelihood ratio test statistic)来处理两样本或多样本的相等性的检验问题。这种方法在传统的低维统计中有着优异且高效的表现,但是正如我们之前所提到的那样,在数据维度p相对于样本量n来说十分大的情况下,样本协方差矩阵已经不再是总体协方差矩阵的可靠的估计,因此在用似然比统计量去处理高维的协方差矩阵或相关矩阵的检验中往往会有较大的概率发生第一类错误。基于这一事实,我们需要发展出更多的针对高维协方差矩阵或相关性矩阵的相等性检验的方法来替代传统的似然比统计量的方法。在众多的高维统计方法中,其中一种有力工具是随机矩阵理论,随机矩阵理论是基于样本协方差矩阵的特征值来构造所谓的“线性谱统计量”,通过推断线性谱统计量的极限分布来得到各种基于特征值的统计量的极限分布。这种方法的好处在于,线性谱统计量往往能包含一类基于协方差矩阵的特征值的统计量,一旦得到了线性谱统计量的极限分布,则很多基于协方差矩阵的统计量的极限分布也随之自然得到。但是缺点在于很多情形下,线性谱统计量的极限分布非常难以推算,因此对于一些情形,随机矩阵的理论复杂性较高。而在本文中我们将主要利用统计渐进理论的方法针对两样本高维相关性矩阵的问题进行研究。在两样本高维相关性矩阵的检验的问题中,另一种有力的工具就是通过构造极值统计量来判断两个相关性矩阵是否来自同一总体。Jiang在其2004年的工作中首次构造了针对单样本的高维相关性矩阵的检验问题的极值统计量,Jiang利用Stein的方法证明了这种极值统计量是依分布收敛到某个I-型极值分布的。Jiang的工作给相关性矩阵的检验问题带来了新的思路,我们可以将极值理论引入到统计检验中来,将极值统计量的极限分布问题转化为独立随机变量或几乎独立的随机变量的和的极限分布问题,从而再利用Stein方法得到最终的极值统计量的渐近分布。而Cai,Liu和Xia在2013年同样利用构造极值统计量的方法提出了针对两样本高维协方差矩阵的检验的极值统计量Mn,并在总体相关性矩阵满足一定的稀疏性条件的情形下证明了Mn的极限分布也是I-型极值分布。受到Cai等人的启发,Cai和Zhang在2016年对于两样本高维相关性矩阵的检验提出了类似的基于最大值范数的检验统计量Tn,并且他们断言该统计量的极限分布将与Mn的极限分布完全相同。但是,由于Cai和Zhang并没有就Tn的极限分布给出严格的理论证明,并且考虑到协方差矩阵和相关性矩阵的是具有内在的不同的,例如:Kullback所提出的针对协方差矩阵的似然比统计量是渐近收敛到卡方分布的,而他同时提出的针对相关性矩阵的似然比统计量是渐近收敛到卡方分布的线性组合的,二者并不具有相同的渐近行为。因此尽管Tn和Mn具有类似的构造方法,但是我们仍然有理由怀疑Tn的极限分布和Mn不完全一致,所以我们认为对这一断言给出严格的数学证明是有必要的。在这一问题的推动下,我们严格验证了Cai和Zhang的猜想:我们严格证明了Tn的极限分布的确是一种I-型的极值分布并且形式与Mn的极限分布完全相同。在这一问题中我们所采用的方法类似于Cai,Liu和Xia在2013年的文章中所采用的证明技巧,而没有利用Stein的方法,这是因为在我们的假定中,并没有要求随机变量的独立性,而允许两个相关性矩阵具有某种稀疏性条件,因此Jiang中所采用的方法难以实行。在我们的方法中我们首先证明了Tn的标准化部分的相合性,所以我们可以用总体的标准化部分的来代替样本的标准化部分,从而使统计量的标准化分母被其总体形式所代替。接着我们利用“截断法”证明了Tn可以被其“非中心化”的形式所代替,也就是证明了我们可以假定所有的总体均值和总体方差是已知,从而可以用已知的总体均值和总体方差去代替样本均值和样本方差。最后我们利用稀疏性假定和Zaitev(1987)中的一种推广的Bernstein不等式可以证明Tn的极限分布的确是一种I-型的极值分布。在Cai,Liu和Xia的文章中包含一个有关于随机变量四阶矩的假定,这个假设对于一切椭圆分布是成立的,但是对于更加一般的情形却不一定成立,所以我们试图去掉这一分布假设。因此我们的另一个贡献就在于:我们在另一种稀疏性假定的条件下,再次证明了Tn的极限分布,同时我们并不要求在Cai,Liu和Xia的文章中的关于随机变量的四阶矩的假定成立。这一工作的展开是基于Xiao Han和Wei Biao Wu在2013年发表的一项工作中所提出的有关于多元正态尾概率的估计的不等式。在该工作中,他们对于相关性矩阵满足某一特定条件的正态随机向量的尾概率给出了上界,从而我们基于这一不等式和对应的所需要的稀疏性假定,就能够在一定程度上去掉随机变量四阶矩的条件,进一步证明Tn的极限分布对于一般的随机变量也是I-型极值分布。这一推广使得定理的应用范围得到了扩展。因此,本文的主要贡献在于对两样本高维稀疏相关性矩阵的相等性检验的检验统计量Tn的极限分布给出了严格的理论证明,补充了之前Cai和Zhang的研究中的遗漏问题。进一步的,我们引入了新的稀疏性条件,将证明建立在不需要分布假定的情形下,从而扩大了这一极限分布的适用范围。在此之后,我们分别对轻尾的正态分布总体的情形和重尾的伽马分布总体的情形做了统计模拟实验,模拟的结果证实了我们的结论:I-型极值分布对Tn的渐近行为有着比较好的拟合作用。最后,我们对全文进行了总结,并提出了展望:希望通过利用Stein的方法能够得到这一渐近过程的收敛速度,从而通过收敛速度的研究,希望进一步提出新的极限分布来加快Tn的收敛速度,以求增强检验的有效性。