稀疏性假定下两个高维相关性矩阵的相等性检验

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：moete

【摘要】

：

随着计算机科学的发展,我们获取数据的能力越来越强,数据的获取场景越来越多样化,导致了数据的维度和数据量不断大幅度增加,产生了大量的高维数据问题。这样的高维数据在基因

【作者】

：

杨栩智

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

高维统计相关性矩阵极值理论极值分布统计检验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机科学的发展,我们获取数据的能力越来越强,数据的获取场景越来越多样化,导致了数据的维度和数据量不断大幅度增加,产生了大量的高维数据问题。这样的高维数据在基因,金融,互联网领域出现得越来越多。例如:在蛋白质的分类问题中,我们往往是通过对蛋白质的基因对进行测序,从而根据不同蛋白质所蕴含的不同的基因对来区分不同种类的蛋白质。但是在实际操作过程中,由于基因测序的成本非常高,导致我们的样本量(n)非常少,但是每个样本所蕴含的基因对(p)却是成千上万,这就产生了一个“小n大p”的问题。对于这样的“小n大p”问题,经典的统计方法往往会失效或者犯第一类错误(原假设为真的情况下拒绝原假设)的概率很大。产生这一现象的原因可以从随机矩阵领域中的Mar?henko-Pastur分布的分布行为中看出:在高维数据的情形下,样本协方差矩阵所对应的特征值的波动开始和总体协方差矩阵所对应的特征值的波动发生显著性的偏差,这使得样本协方差矩阵不再是总体协方差矩阵的有效估计,自然的,高维情形下,样本相关性矩阵也不再是总体相关性矩阵的可靠估计了。这一事实导致许多经典的统计方法在高维数据的情形下表现非常糟糕,在高维统计检验的问题中,如果依然对高维数据应用低维的经典方法则往往会以较大的概率发生第一类错误。因此,在过去一段时间的研究工作中,提出新的统计方法以应对高维数据成为了现代统计学的主要挑战。由于协方差矩阵和相关性矩阵在许多统计方法中扮演着十分重要的角色,因此在高维统计分析中,关于高维协方差矩阵和相关性矩阵的的问题又是其中至关重要的核心问题。皮尔逊协方差(下称“协方差”)往往被用来刻画不同的变量之间是否有线性关系,而由于现实数据中往往存在着不同的量纲,例如:身高数据和年龄数据,体重数据和摄入食物质量的数据,这样量纲的不同将会使得不同性质的变量之间的协方差无法比较,因此协方差往往需要被标准化来去量纲,从而可以达到比较不同性质的变量之间的相关性大小的目的。这样标准化之后的协方差我们就称之为皮尔逊相关系数(下称“相关系数”)。由不同变量之间的协方差构成的矩阵被称为协方差矩阵,由不同变量之间的相关系数构成的矩阵被称为相关性矩阵。在统计分析中,协方差矩阵和相关性矩阵的相等性的问题往往受到格外的关注,因为有很多的统计方法是建立在协方差矩阵或相关性矩阵相等的假设之下的。例如Fisher的线性判别分析就建立在两个样本的协方差矩阵相等的假设之下。因此,在高维数据分析中我们经常有必要事先检验两个样本的总体协方差矩阵或相关性矩阵是否相等,否则我们的统计方法可能会难以实施。在检验协方差矩阵和相关性矩阵的相等性的问题上,传统的方法往往是采用由Kullback在1969年提出的似然比统计量(likelihood ratio test statistic)来处理两样本或多样本的相等性的检验问题。这种方法在传统的低维统计中有着优异且高效的表现,但是正如我们之前所提到的那样,在数据维度p相对于样本量n来说十分大的情况下,样本协方差矩阵已经不再是总体协方差矩阵的可靠的估计,因此在用似然比统计量去处理高维的协方差矩阵或相关矩阵的检验中往往会有较大的概率发生第一类错误。基于这一事实,我们需要发展出更多的针对高维协方差矩阵或相关性矩阵的相等性检验的方法来替代传统的似然比统计量的方法。在众多的高维统计方法中,其中一种有力工具是随机矩阵理论,随机矩阵理论是基于样本协方差矩阵的特征值来构造所谓的“线性谱统计量”,通过推断线性谱统计量的极限分布来得到各种基于特征值的统计量的极限分布。这种方法的好处在于,线性谱统计量往往能包含一类基于协方差矩阵的特征值的统计量,一旦得到了线性谱统计量的极限分布,则很多基于协方差矩阵的统计量的极限分布也随之自然得到。但是缺点在于很多情形下,线性谱统计量的极限分布非常难以推算,因此对于一些情形,随机矩阵的理论复杂性较高。而在本文中我们将主要利用统计渐进理论的方法针对两样本高维相关性矩阵的问题进行研究。在两样本高维相关性矩阵的检验的问题中,另一种有力的工具就是通过构造极值统计量来判断两个相关性矩阵是否来自同一总体。Jiang在其2004年的工作中首次构造了针对单样本的高维相关性矩阵的检验问题的极值统计量,Jiang利用Stein的方法证明了这种极值统计量是依分布收敛到某个I-型极值分布的。Jiang的工作给相关性矩阵的检验问题带来了新的思路,我们可以将极值理论引入到统计检验中来,将极值统计量的极限分布问题转化为独立随机变量或几乎独立的随机变量的和的极限分布问题,从而再利用Stein方法得到最终的极值统计量的渐近分布。而Cai,Liu和Xia在2013年同样利用构造极值统计量的方法提出了针对两样本高维协方差矩阵的检验的极值统计量Mn,并在总体相关性矩阵满足一定的稀疏性条件的情形下证明了Mn的极限分布也是I-型极值分布。受到Cai等人的启发,Cai和Zhang在2016年对于两样本高维相关性矩阵的检验提出了类似的基于最大值范数的检验统计量Tn,并且他们断言该统计量的极限分布将与Mn的极限分布完全相同。但是,由于Cai和Zhang并没有就Tn的极限分布给出严格的理论证明,并且考虑到协方差矩阵和相关性矩阵的是具有内在的不同的,例如:Kullback所提出的针对协方差矩阵的似然比统计量是渐近收敛到卡方分布的,而他同时提出的针对相关性矩阵的似然比统计量是渐近收敛到卡方分布的线性组合的,二者并不具有相同的渐近行为。因此尽管Tn和Mn具有类似的构造方法,但是我们仍然有理由怀疑Tn的极限分布和Mn不完全一致,所以我们认为对这一断言给出严格的数学证明是有必要的。在这一问题的推动下,我们严格验证了Cai和Zhang的猜想:我们严格证明了Tn的极限分布的确是一种I-型的极值分布并且形式与Mn的极限分布完全相同。在这一问题中我们所采用的方法类似于Cai,Liu和Xia在2013年的文章中所采用的证明技巧,而没有利用Stein的方法,这是因为在我们的假定中,并没有要求随机变量的独立性,而允许两个相关性矩阵具有某种稀疏性条件,因此Jiang中所采用的方法难以实行。在我们的方法中我们首先证明了Tn的标准化部分的相合性,所以我们可以用总体的标准化部分的来代替样本的标准化部分,从而使统计量的标准化分母被其总体形式所代替。接着我们利用“截断法”证明了Tn可以被其“非中心化”的形式所代替,也就是证明了我们可以假定所有的总体均值和总体方差是已知,从而可以用已知的总体均值和总体方差去代替样本均值和样本方差。最后我们利用稀疏性假定和Zaitev(1987)中的一种推广的Bernstein不等式可以证明Tn的极限分布的确是一种I-型的极值分布。在Cai,Liu和Xia的文章中包含一个有关于随机变量四阶矩的假定,这个假设对于一切椭圆分布是成立的,但是对于更加一般的情形却不一定成立,所以我们试图去掉这一分布假设。因此我们的另一个贡献就在于:我们在另一种稀疏性假定的条件下,再次证明了Tn的极限分布,同时我们并不要求在Cai,Liu和Xia的文章中的关于随机变量的四阶矩的假定成立。这一工作的展开是基于Xiao Han和Wei Biao Wu在2013年发表的一项工作中所提出的有关于多元正态尾概率的估计的不等式。在该工作中,他们对于相关性矩阵满足某一特定条件的正态随机向量的尾概率给出了上界,从而我们基于这一不等式和对应的所需要的稀疏性假定,就能够在一定程度上去掉随机变量四阶矩的条件,进一步证明Tn的极限分布对于一般的随机变量也是I-型极值分布。这一推广使得定理的应用范围得到了扩展。因此,本文的主要贡献在于对两样本高维稀疏相关性矩阵的相等性检验的检验统计量Tn的极限分布给出了严格的理论证明,补充了之前Cai和Zhang的研究中的遗漏问题。进一步的,我们引入了新的稀疏性条件,将证明建立在不需要分布假定的情形下,从而扩大了这一极限分布的适用范围。在此之后,我们分别对轻尾的正态分布总体的情形和重尾的伽马分布总体的情形做了统计模拟实验,模拟的结果证实了我们的结论:I-型极值分布对Tn的渐近行为有着比较好的拟合作用。最后,我们对全文进行了总结,并提出了展望:希望通过利用Stein的方法能够得到这一渐近过程的收敛速度,从而通过收敛速度的研究,希望进一步提出新的极限分布来加快Tn的收敛速度,以求增强检验的有效性。

其他文献

拓扑绝缘体薄膜中的超快载流子与声子动力学

2009年,V-VI族化合物Bi2Te3与Bi2Se3被预测是三维拓扑绝缘体材料之后。为了将这种具有表面导电无耗散,而体态内部为绝缘体的新型材料投入自旋电子学,光电子学和量子计算的应

学位

拓扑绝缘体纳米薄膜飞秒泵浦探测载流子动力学

森林采伐对农村生计的主要影响

这项研究的目的是审查毁林对农村生计的主要影响,特别侧重于塞拉利昂西部地区的农村地区。热带社会的毁林现象有增无减,对森林和依赖森林和森林资源的人的生计构成严重威胁。

学位

DeforestationRuralLivelihoodSierra Leone

青岛取引所研究（1920-1938）

近代以降,中国经历了三千年未有之变局,中国内部开始了经济体制的转型,交易所制度的引进便是其中之一。交易所,日本称之为取引所,欧美则称之为交易所。日本在华设置取引所自1

学位

青岛取引所青岛商会商业活动青岛市物品证券交易所

中小微企业基于互联网金融融资模式研究

中小微企业融资问题一直是一个困扰我国大量中小微企业发展的重要问题。大量的中小微企业是我国经济成长的重要组成部分。尤其是其对就业、税收、GDP贡献极大。由于传统金融

学位

中小微企业互联网金融金融机构风控体系大数据

量测随机延迟与丢失的粒子滤波

对于非线性动态系统的滤波问题,贝叶斯滤波提供了一个理论上的最优解。但该最优解涉及到复杂高维积分的计算,通常是不可解析计算的。目前一种较为流行的方式是用蒙特卡罗方法

学位

非线性动态系统粒子滤波量测随机延迟与丢失伯努利随机变量量测似然

HIF-1α对BMSCs成骨及成血管相关因子影响机制的研究

目的:分析低氧诱导因子-1α(HIF-1α)在SD大鼠骨髓间充质干细胞(BMSCs)中过表达与低表达后,相关成骨和成血管细胞因子的动态变化,探讨其在骨改建和血管化过程中的影响机制。方法:分离并培养BMSCs采用流式细胞术进行鉴定,分别构建过表达与低表达质粒载体上调和下调HIF-1α基因的表达,将含绿色荧光蛋白(EGFP)的质粒分别转染至BMSCs,成骨诱导3d、7d后分别进行茜素红染色,用逆转录-

学位

在线品牌社群氛围对成员公民行为影响效应研究

随着市场的发展及企业对互联网的应用,各大企业关于在线品牌社群的建立成为了目前的一种新潮。如小米手机建立的小米公司、天涯社群建立的天涯论坛等。在线品牌社群的建立使

学位

在线品牌社群社群氛围社会资本公民行为

两类反应扩散系统的周期事件触发控制

事件触发控制由于其节约通信资源的优点具有广泛的应用,关于反应扩散系统的事件触发控制也受到了广泛关注。通常,反应扩散系统能刻画热传导、半导体中的气体分子运动、流体运

学位

反应扩散系统事件触发控制边界控制随机反应扩散系统稳定性H无穷性能

在体与离体两种肠道模型研究结合雌激素的肠道渗透性

目的:1.采用在体、离体两种模型,以结合雌激素(CE)中主要活性成分马烯雌酮硫酸钠(Eq S)和雌酮硫酸钠(ES)为代表研究CE在大鼠肠道的吸收特性,并与模型药物的渗透性比较,确定CE的渗透性分类等级。2.采用大鼠SPIP模型研究相同浓度下CE原料药中ES与ES标准品的渗透性,分析多组分环境对单一物质的渗透是否产生影响。方法:1.建立CE中主要活性成分Eq S、ES和4个模型药(高渗:美托洛尔、米

学位

数据挖掘技术在银行精准营销中的研究与应用

随着计算机水平的迅猛发展,银行也在信息化水平上得到了突飞猛进的进步,在这其中伴随着业务的不断跟进,智能化水平的不断提高,产生了大量的业务数据如:客户属性数据,中间数据

学位

数据挖掘客户关系管理系统SMOTE算法数据标准化遗传算法决策树、神经网络

稀疏性假定下两个高维相关性矩阵的相等性检验

其他学术论文