论文部分内容阅读
根据蛋白质的氨基酸序列预测蛋白质的结构是计算生物学中尚未解决的重要问题之一,而该问题的一个难点是蛋白质中Loop片段的结构。Loop在蛋白质的特征和功能中起着关键作用,但是用实验方法确定Loop结构,因其活性相对较大而变得异常困难。因此,尽可能精确地对Loop的结构进行计算建模,对于了解蛋白质整体结构来说是非常重要的。
本文用生成式概率模型贝叶斯网络为蛋白质Loop建模,用连续型二元VonMises分布来描述Loop的骨架结构。用氨基酸信息作为显式控制Loop结构二面角对的原因变量。为了验证蛋白质Loop结构上连续建模的可行性和有效性,采用了二元Von Mises分布构建贝叶斯网络结构固定的LoopMM模型。从SABmark中提取的Loop段的训练集上学习,并采样得到连续的二面角对。在CASP8中自由建模蛋白质的Loop结构上的实验也显示出LoopMM采样得到二面角对比其他方法更接近天然态的Loop二面角对。
将LoopMM中固定的网络结构释放,从训练集中进一步学习出新的贝叶斯网络结构,即允许远距离多个氨基酸残基或二级结构联合决定某个残基的二面角节点,新学习到的贝叶斯网络LoopBN模型不仅能采样到更接近Loop天然结构的二面角对,而且在从头预测这些蛋白质整体结构时能提高准确度。
用贝叶斯网络来预测蛋白质Loop结构,一方面为提高结构预测的精度提供了新的计算模型,另一方面还能描述蛋白质Loop结构中一些潜在的因果关系:Loop结构中不同残基的氨基酸和二级结构信息对二面角取值的因果关系可以由贝叶斯网络结构图上的边直接展现出来,为计算作为手段来解决生物等目标问题提供了易理解,易解释的科学发现。