论文部分内容阅读
中、高通量分型平台(例如Illumina GoldenGate芯片,全基因组SNP芯片)的迅速发展,使得在关联性研究中可以同时对大量基因大量位点进行检测分型,由此产生大量高维数据(high-dimensional data)。越来越多的高维数据研究在关注主效应对疾病影响的同时,更关注SNP-SNP,SNP-环境因素的交互作用。目前,统计学工作者已经建立了一些降维模型来寻找主效应与交互作用,以树为基础的统计分析方法是非参数统计方法的一种,其通过迭代的方法进行回归和分类分析,能在变量数较多情况下进行变量筛选,以便进行后续的交互作用分析。随机森林以其固有的特点和优良的分类性能在此类统计方法中脱颖而出。本研究利用模拟试验,针对病例-对照研究中的高维数据,探讨随机森林算法在交互作用分析中的统计学性质,以及相应的分析策略,并指导肺癌遗传易感性的关联研究及交互作用分析。研究内容包括模拟实验和实例分析两个方面:(1)基于HapMap网站上的中国人群信息,产生模拟数据,基于随机森林方法进行交互作用检测评价,验证随机森林在位点筛选和交互作用检测中的作用。(2)利用高维肺癌病例对照资料,运用二阶段分析方法,首先基于随机森林算法进行多基因多态性与肺癌遗传易感性的关联研究,筛选SNP位点;其次将随机森林获得结果与CART和logistic回归等方法相结合,检测交互作用。本研究的主要结果是:(1)模拟研究分析结果提示:随机森林可以同时检测与疾病相关的主效应与交互作用,通过变量的重要性得分发现交互作用。尤其是对于不存在主效应的模型,传统方法可能会同时忽略他们的交互作用,而利用随机森林可以弥补这一缺陷。(2)实例分析结果提示:包含2条DNA修复通路的20个经典候选基因上的580个SNP位点,利用随机森林方法进行降维,经随机森林和LD-r2≥0.80筛得33个平均重要性得分最高且错误率最低的SNP位点,利用该结果进行进一步分析,可发现交互作用。而如果针对原始数据集的580个SNP位点,直接进行单位点logistic回归得到的结果信息量较少无法进行进一步交互作用分析。提示对高维病例-对照研究数据,先利用随机森林方法降维,再用logistic回归、CART等传统方法进行分析,可以有效剔除噪声变量,提高主效应和交互作用的检验效能。