高维基因数据中的统计方法

来源 :清华大学 | 被引量 : 0次 | 上传用户:fengdl0040
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类遗传学研究的一个重要目标是发现和识别人类疾病的遗传基础。现有的检验方法是检验表型和指定区域中遗传变异体的关联性,例如检验疾病和基因间的相关性。然而由于全基因组测序数据中包含大量的基因间区段,因此序列中的分析单位并没有很清晰的界定。鉴于此,我们提出了一种基于二次扫描统计量的检验方法。该方法通过连续扫描全基因组序列来检验信号区域的存在和位置。我们提出的方法考虑到了以下三种情况:由连锁不平衡引起的单核苷酸多态性间的相关性,在信号区域中同时出现致病性和非致病性突变,以及在信号区域中同时出现正效应和负效应致病性突变。本文给出了所提出扫描方法的渐近性质。我们得到了可以渐近控制族错误率的理论阈值并表明在一定的正则性条件下,所提出的方法能以趋于1的概率选择出确切的信号区间。我们通过模拟研究来评估上述方法的有限样本性质。模拟结果显示,我们的方法在以下三种情况下优于现有的其他方法:信号区域中的突变相关,信号区域中出现非致病性突变,信号区域中同时出现正效应和负效应致病性突变。我们将所提出的方法应用到一组肺癌全基因组关联研究中,得到了与肺癌相关的遗传变异区域。在遗传学研究中,人们关心的另一个重要问题是估计所选变量的效应量。从高维基因数据中选择出一组与疾病相关的变量同时基于这些变量建立合理的预测模型是一项非常具有挑战性的任务。合理的变量选择和准确的效应量估计可以帮助我们建立易于解释且有效的预测模型。惩罚似然法提供了一种可以同时进行变量选择和参数估计的统计方法。受此启发,本文提出了一种在广义线性模型中利用SELO惩罚来进行变量选择和参数估计的方法,我们称之为SELO-GLM。SELO惩罚是一种近似非光滑L0惩罚的光滑惩罚函数。在文章中,我们给出SELOGLM的高效算法,同时证明了SELO-GLM估计的Oracle性质。在较宽泛的正则性条件下,我们指出应用BIC选择调整参数,SELO-GLM/BIC能以趋于1的概率选择出正确的模型。文章中应用数值模拟的方法比较了SELO-GLM和现有的几种似然惩罚方法。模拟结果指出,在变量个数较多和信号较弱的情况下,SELO-GLM的有限样本性质要优于现有的其他方法。最后我们应用SELO-GLM分析了一组乳腺癌基因数据并从中选出了与乳腺癌发生率相关的SNPs。
其他文献
基于光纤的时频同步技术具有同步精度高、可靠性强的优势,在高精度时钟比对、射电干涉测量、深空探测等领域发挥着日趋重要的作用。本论文回顾了时频传输与同步的发展历程,针
综述了高脂血症的病因病机 ,认为饮食不节、脾虚湿困、心脾两虚、情志所伤、肾气虚衰、痰瘀阻络皆可导致机体的功能减弱或失调 ,致膏脂的代谢紊乱 ,发生高脂血症。
通过普通钢筋混凝土框架结构、钢筋混凝土框架-剪力墙结构和钢支撑-混凝土框架结构在高烈度地区的对比试算,研究了3种结构体系在多地震作用下的受力特征和在罕遇地震作用下的
未来的超大规模计算系统设计面临着两个很重要的挑战:能效性和以数据为中心的应用负载。片上多核处理器作为构成未来超大规模计算系统的基础之一,其设计和应用也需要向“低功
IEEE 802.11无线局域网已经成为互联网接入技术的一个普遍解决方案。随着智能移动终端的迅速普及,在大型公共聚集场所,会出现多个用户通过相同的无线接入点同时访问相同的视
随着有机光电子学的发展,掺杂无定形有机半导体在有机光电器件中得到了广泛应用。目前,对掺杂无定形有机半导体的电荷传输机理和激子动力学的研究还不完善。本论文结合理论计
新型有机光敏晶体管存储器(OPTM)因其集场效应、光敏和存储功能于一体的特点,又具有易集成和可制备柔性、多位存储器件的优势而备受关注。本论文使用高介电常数材料五氧化二钽(T
谈判问题及其解的效率的研究是博弈论领域研究的热点之一,并且在实际的管理问题中,谈判理论也有非常多的应用。谈判理论要回答的一个主要问题就是,当多个参与者联合起来做决
近年来对青年马克思思想形成过程以及不同思想资源在这一过程中所起到的作用的研究,仍然是我国马克思主义研究中的热点问题。目前,从政治经济学、德国古典哲学、青年黑格尔派
基于波动方程的层析成像方法被认为是研究地球内部结构和动力学过程的新一代成像方法。首先,本文利用伴随方法、Born近似以及格林函数等发展了基于波动方程的地震层析成像和