论文部分内容阅读
本文首先介绍了基因芯片的背景知识,作为众多学者关注的研究方向,基因表达差异分析可以分为单基因分析和基因集分析。通过介绍基因表达差异分析的相关方法,同时分析各种方法的优劣点,本文提出基于聚类结果的基因集表达差异分析方法:GSCL。该方法考虑了以下三方面:生物性状往往与多个基因表达有关;基因表达之间一般存在相互作用;基因集数据经常呈现样本量远远小于基因数的现象。GSCL方法的基本思路是:首先通过聚类将基因集分成若干个基因子类;其次定义基因子类信息量,并以此作为该类对表现型影响的度量,得到对应各子类的权重;然后通过权重向量的迅速降维;最后利用t检验得到检验结果。在方法的应用上,本文首先对模拟数据进行应用,共考虑了四种不同协方差结构和六种不同均值结构,然后对AML/ALL和p53两个实验数据集进行应用,得出了以下结论:当标准差水平与两种表现型下的均值之间的相差程度接近或较小时,GSCL能较为准确地检验出数据之间的差异性;当标准差较大时,本文方法会有一定的假阳性存在;对AML/ALL实验数据的检验结果,本文和之前的众多学者结论一致,认为该数据集涉及到的基因集在两种表现型下表达是有差异的;p53数据集中310个pathway,在显著性水平为0.01的情况下,检验出26个pathway表达有差异,而与之前学者考虑的19个pathway相比较,本文得出一致性的结论外也提出了一些与之前方法有差异的pathway,值得生物学方面的进一步讨论。