论文部分内容阅读
基于蛋白质和基因表达谱等高通量数据识别与癌症发生和发展相关的差异表达基因是癌症研究的一个重要方面。尽管相关研究已经取得很大的进展,但也发现了这样的问题:同一种癌症不同研究得到的基因表达谱数据中发现的差异表达基因仅有少部分是重叠的,即重复性低。可重复性低这一问题急需得到解决,否则将会使高通量技术受到质疑,进一步的临床应用也将受到影响。分析原因,数据扰动是引起重复性低的重要原因。基因表达谱数据的扰动由实验误差和生物学误差组成。实验误差可以通过实验手段和技术的提高改进,仪器设备的更新完善等来控制,而生物学误差来源于基因表达调控的多样性与单核苷酸多态性,无法避免,占扰动误差的主要部分。因此,提出少受数据扰动误差影响的筛选差异表达基因的新统计方法来提高可重复性,具有重要的意义。研究发现,由不同研究筛选的癌症差异表达基因重叠率虽然较低,但它们在表达相关的意义上一致性较高,这提示我们有可能通过相关性方面的研究来提高筛选的癌症差异表达基因重叠率。本文选取乳腺癌的表达谱数据为研究对象,通过研究数据之间的相关性,进而提出筛选差异表达基因的改进方法。1.目前在基因表达谱数据筛选差异表达基因中,多使用FDR(false discovery rate)方法,该方法在传统t检验的基础上,通过用ALSU(adaptive 1inear step-up)控制程序进行基因筛选。本文定义和计算了乳腺癌表达谱数据中基因的各种相关系数,发现随着FDR调整的P值增大,基因的总相关系数呈下降趋势。通过差异基因的功能富集分析发现,显著性富集通路中差异基因的平均相关系数,大部分要高于全体差异基因的平均相关系数。这说明功能一致的差异表达基因,它们之间的相关性越强。利用计算机产生不同误差的模拟数据,分别计算和比较平均相关系数和t检验P值的均方根误差,前者要小于后者。这表明表达谱数据的相关性受扰动的影响要小于传统t检验方法。2.本文在FDR方法基础上,提出一种结合相关性的改进方法来筛选乳腺癌的差异表达基因。结果表明,改进方法筛选出的差异基因重复率要高于FDR方法的基因重复率,其中的重复基因含有的已知乳腺癌相关基因也要多于FDR方法。同时,功能富集的结果也更优于FDR筛选出差异基因的功能富集结果,改进方法能够选出更多的与乳腺癌密切相关的通路。由此可见,基于相关性的改进方法是鲁棒和稳定的,效果比传统FDR方法更好。综上所述,本文对乳腺癌基因表达谱数据的相关性进行了研究,提出了结合相关性对FDR方法进行改进的方法用于筛选差异表达基因,提高了不同研究的癌症表达谱数据可重复性,对利用高通量技术研究癌症的发生发展,解决临床问题有积极意义。