论文部分内容阅读
计算老药新用有两种基本策略:1)对于一些疾病,致病机理及关键靶标已知。药物开发的关键在于找到能激活或抑制相关蛋白质的化合物。可以通过研究和预测药物-靶标相互作用来开发新药。2)对于另一些疾病,其致病机理不甚了然,没有发现关键靶标蛋白质。因此需要整合多种数据,提高药物-疾病相互作用预测能力。本文从这两种基本策略出发,分别研究药物-靶标和药物-疾病相互作用预测。目前已有一些计算机和生命科学的学者致力于预测药物-靶标和药物-疾病相互作用。然而他们的研究侧重点不同。计算机科学家更关注预测准确率,算法的时间和空间复杂度,算法收敛性和扩展性等等。其模型具有训练快,精度高,成本低的优点,但是计算模型难以被生物学家所理解,较少用于指导生物科研。生物学家则倾向于用简单、直接、生物可解释的方式来预测。虽然结果易于理解,也易被科研人员采纳,但是费用高,周期长。本文旨在调和这种矛盾,结合二者的优点,开发出训练快,精度高,成本低的算法,并且赋予这些算法明确的生物意义,使得生物科研人员更易接受。配体/药物,靶标的特征提取。传统的药物-靶标相互作用预测基于两个假设:与某一配体的靶标相似的蛋白质可能与这一配体相互作用;与某一靶标相互作用的配体相似的小分子可能与这一靶标相互作用。根据这两个假设,无需直接对靶标和配体描述,只需定义某种相似性测度就可以地预测配体-靶标相互作用。虽然相似性假设能作出很好的预测,但是人们对配体-靶标相互作用机制不了解,不利于指导生物实验。此外,靶标通常较配体大几个数量级,配体只与靶标的局部相互作用,比较局部结构应具有更好的预测性。本文直接对配体与靶标描述。先从靶标中取出配体结合位点,然后定义靶标片段字典,根据字典将配体结合位点分解成分子片段。类似地,定义配体字典,根据字典将配体分解成片段。为了评估特征的有效性及靶标全局和局部的重要性,本文构建了一个简单的分类器,用分类器的精度作为评价指标。算法上,处理成对输入是核心。本文引入Kron核函数使SVM能接受成对输入,并用核技巧组合靶标的全局和局部信息,通过分析组合权重与分类精度的关系来研究靶标全局和局部的重要性。结果表明本文的特征提取方式是有效的,靶标的局部特征在配体-靶标相互作用预测中占主要地位,全局信息可以忽略不计。配体-靶标多场相互作用模型。本文模拟物理中物质相互作用的理论,提出“多场相互作用”模型。假设分子片段周围存在多种场,如静电场,疏水场等。分子片段之间的相互作用是通过多种场介导的。本文先学习两个映射矩阵,矩阵中的元素表示分子片段产生的某个场的场强,再利用这两个矩阵将分子片段映射到场空间。在场空间中,同质场能够相互作用形成成对场空间。最后在成对场空间中构造分类器,对配体-靶标相互作用预测。算法上学习映射矩阵是核心,我们引进了一种灵活控制稀疏的正则项,提出稀疏可控的奇异值分解算法。该算法可以方便地控制奇异向量的稀疏程度,其运行效率是传统算法的8到10倍。通过多场相互作用模型,可以得到一个片段相互作用矩阵,矩阵中的元素表示分子片段相互作用的强度。对矩阵中稳定且绝对值较大的元素分析发现,其对应的分子片段在化学上可能相互作用,即分子片段的相互作用是化学可解释的。因此,这个矩阵可以用于先导化合物的优化和药物-靶标相互作用机理的研究。药物-疾病相互作用模型。整合结构、基因、疾病表型以及药物-疾病相互作用等信息,得到药物,疾病三个层次的相似性,并线性组合各层次相似性得到复合相似性。然后构造以药物-疾病对为节点的网络,并在这个网络上应用LLGC算法预测药物-疾病相互作用。为了引入先验知识,本文对传统的LLGC算法进行改造,使得算法能参考先验知识做预测。传统的LLGC算法不能扩展到大规模,本文提供了一种低内存的计算方式解决计算问题。结果表明,修改的LLGC算法能很好地预测药物-疾病相互作用,先验的加入使得模型更易理解。