论文部分内容阅读
癌症是一类包含多个变异基因和失调路径的复杂疾病,识别癌症相关失调路径和生物标记物有助于理解癌症致病机理及其临床诊断,对癌症药物的设计也有很大帮助。近年来,复杂疾病的生物分子水平研究发展迅速,但是对于恶性肿瘤为首的胃癌相关研究,一直都无法突破其因阶段性不显著的特征所带来的诊断瓶颈。传统的生物标记物识别方法仅基于差异表达基因,这些基因被认为与疾病密切相关。但是这种方法应用于同一疾病的多个数据集时效果不理想,尤其对于复杂疾病,这可能是由于基因之间的相互作用而影响的。基于此,近期已有研究提出识别失调路径作为新的前景方向,比起单个基因,将失调路径作为生物标记物来区别疾病状态具有更高的鲁棒性。然而,不同生物路径之间通常存在交集,而且一条路径的异常调控往往会影响多条相关路径的功能。因此,结合路径之间的功能相关性可能会识别出更具鲁棒性和准确性的生物标记物。本文结合蛋白质相互作用网络数据、分子路径数据和基因表达数据,构建出路径相互作用网络(Pathway Interaction Network,PIN),将胃癌动态失调模块以及生物标记物的识别问题归约为特征选择问题。首先,利用支持向量机,获得能够最佳分类疾病状态的生物路径作为种子。然后,由种子路径出发,在PIN上利用启发式算法扩展其它路径作为生物标记,每一次扩展都使分类性能达到最大,直到分类能力不再增加为止,从而找出能够最优区分胃癌阶段性的最小失调模块集合。实验结果表明,该方法应用于胃癌数据集而识别的排名前10%的种子路径t-score在三个阶段的分布与临床中诊断情况基本一致,说明识别出的种子路径与胃癌密切相关。同时比较该方法与其它三种方法分别在胃癌各阶段找出的种子t-score,每种方法都识别出排名前10%的路径,该方法中t-score平均高出2.0左右,再次验证了本文所找出的种子与胃癌显著相关。将识别出的三阶段失调模块在测试集上验证时,相应的AUC平均值约为0.7左右,以第二、三阶段最为明显,因此该失调模块标记物在测试集上有很好的鲁棒性。同时,将该方法与已有三种方法在测试集上进行比较,发现该方法三阶段的平均AUC为0.7,比其它三种方法中的最好情况至少高了0.1。对失调模块中基因进行统计分析,发现这些基因在统计学上具有显著意义并且可靠。进一步对其进行富集分析,发现大多数都与胃癌具有功能相关性,包括磷酸化作用、细胞凋亡、细胞周期过程、细胞增殖等。继而,通过对各阶段失调模块的综合分析,识别出了在胃癌整个恶化过程中共有的失调基因,以及在特定进展阶段的特异性失调基因,这些基因很有可能作为潜在的药物治疗靶标。最后,将该方法分别应用于PIN网络与普通网络,比较发现PIN网络的结果AUC明显优于一般网络的结果AUC,而且PIN网络的构建比一般基因网络具有更小的时间复杂度。