论文部分内容阅读
高维度、相关小样本的基因表达生存数据在医学分析中越来越常见。一般的生存分析方法(COX比例风险模型、加速失效时间模型等)在分析基因微阵列时,遇到样本量小、自变量多时,不能直接应用得到临床结果和预测。不管样本量大或者样本小,如果样本本身具有高维性,在进行变量选择时,一般统计分析方法的使用可能容易出现计算难度大或者过度拟合这样的问题,为此本文采用一种改进的Lasso和贝叶斯集成方法来解决这个难题。Lasso (The Least Absolute Shrinkage and Selectionator operator)由Tibshirani在1996年提出的一种新型算术方法。这种算法通过构造一个惩罚函数获得一个精炼的模型,把一些没有意义或意义很小的变量系数压缩为0之后,得到的模型反而更优[1]。为了获得拟合结果比较好的模型,在系数绝对值上添加一个约束条件来达到对高维资料进行降维的目的,这样的做法更适合于基因数据的生存分析。尽管lasso方法在解决高维问题方面取得了一些成果,可是在分析共线性数据时,它是一种有偏估计。例如在分析基因表达数据时并没有考虑到基因间复杂的相互作用关系。Lee和Mallick在2004年把集成方法(bagging、boosting和random forests等方法)对于变量选择发展应用到Cox比例风险模型中,在分析高维数据时很好地综合了变量之间的相互作用。本文采用贝叶斯集成方法分析乳腺癌基因表达数据,是基于“sum-of-trees”模型(Chipman et al,2010)。在Cox比例风险模型中通过完全贝叶斯分层方法估算的不确定性,对每个阶段传播的层次结构进行预测[2]。这种方法有效地克服了缺乏共轭性引起的分析误差,通过使用一个潜变量公式来模拟协变量。这样不仅允许随机偏差,而且提高计算效率、方便快捷[3]。本文在分析高维生存数据(基因表达数据)采用Lasso和贝叶斯集成方法。通过Van tVeer(2002)的乳腺癌基因表达数据,研究乳腺癌是否发生远端转移与检测到的300个基因的关系,采用Lasso方法进行变量选择筛选出15个有意义的基因,而采用贝叶斯集成方法进行变量选择筛选出8个有意义的基因,但是Lasso方法在BS、R2、CI三方面的性能估计低于贝叶斯集成方法。原因在于贝叶斯集成方法使用贝叶斯累加回归树(Bayesian additive regression trees,BART),通过一个潜变量模拟协变量效应,不仅允许随机偏差模型,还大大降低了计算复杂度,提高了性能估计。本文对乳腺癌基因表达数据的分析采取软件R[4]编程来实现。