论文部分内容阅读
自人类基因组计划开始以来,新的组学数据测定技术不断涌现,生命科学进入了多组学的时代。与仅使用单一组学数据的方法相比,整合多组学数据可以弥补任何单一组学中缺失或不可靠的信息,并通过多个证据来源降低假阳性。用于整合多组学或多维度生物医学数据的新算法成为多组学研究不可或缺的关键技术。此外,各种维度药物信息学数据的积累为药物研发特别是药物重定位带来了新的机遇,然而,目前大多数算法仍然仅使用单一维度的数据实现药物重定位预测,整合多维药物信息进行精确的药物重定位仍然面临挑战。本研究首先提出了一种基于在异质网络上重启随机游走的多组学数据整合算法,用于整合基于不同组学数据构建的相似性网络。该方法包含两个主要步骤:(1)构建每个组学数据的相似性网络,然后通过连接多个相似性网络的相应样本构建异质网络;(2)在异质网络上进行重启随机游走。经过多次迭代之后,得到稳态概率分布。利用稳态概率分布将多个相似性网络整合为一个相似性网络。本研究将算法应用于TCGA癌症数据,整合了三种类型的组学数据,并进行了聚类分析以辨识癌症亚型。实验结果表明,本研究提出的算法在性能上优于已有的方法。本研究所辨识的癌症亚型结果为临床应用提供了新的视角和分析基础。进而,本研究将非线性多维度数据整合算法用于整合多维药物属性数据,提出了面向药物重定位的多维度数据整合计算框架PIMD。为了评估PIMD的表现,本研究通过整合药物二维结构,副作用和靶蛋白序列数据(分别代表化学,临床和药理学属性)构建了一个整合的药物相似性网络。对每种药物属性贡献度的分析表明,PIMD充分利用了各类药物属性的共有的和互补的信息。一系列定量指标的计算也表明整合的药物相似性网络比单属性药物相似性网络具有更清晰的社团结构。通过谱聚类,将整合的药物相似性网络划分为32个社团,并从两个方面提供药物重定位的线索,这两个方面分别是具有高相似性得分的药物对和每个社团中有“意外”标签的药物。此外,本研究提供了5种药物和靶标富集分析范式对药物社团进行系统和全面的分析,包括基于药物的富集分析,基于靶标的富集分析,药物物化性质分析,化学基因组学富集分析,以及化学本体论富集分析。具有高相似性得分的前20对药物中,有7种药物已成功实现了药物重定位。PIMD的高可扩展性和模块化使研究人员能够以更全面的视角看待药物。最后,为了更精准地实现药物重定位,本研究进行了药-靶-病三元关联的预测。考虑到药物的多维属性、靶标的多维属性以及疾病的多维属性,使用非线性整合算法进行整合,分别构建三个网络。然后通过已知的药-靶-病关联关系将三个网络连接起来构成“药物-靶标-疾病”三元异质网络。接下来将重启随机游走算法应用在“药物-靶标-疾病”三元异质网络上,通过随机游走的稳态概率分布预测出新的药-靶关联、药-病关联和靶-病关联。预测结果的准确性较以往的算法也有较大的提升。本文有以下两个创新点:第一,提出的多组学数据整合算法将随机游走的理论应用于数据整合,是一种基于网络的数据整合策略,充分利用了不同类型数据提供的互补信息,也充分利用了整个网络的拓扑信息,取得了优秀的效果。第二,提出的两个框架:面向药物重定位的多维度数据整合计算框架和基于多维度数据整合的药-靶-病关联关系预测计算框架能够整合新的药物信息学知识,有助于实现更精准的药物重定位,并揭示药物的新作用机理。