论文部分内容阅读
蛋白质的进化和分子内(间)相互作用紧密联系。一方面,蛋白质在进化过程中似乎倾向于保持一些关键相互作用,相关突变即属于这种情况。另一方面,蛋白质的进化又必须通过改变分子内(间)的相互作用来实现。对蛋白质分子进化和分子内相互作用关系的研究,对于揭示蛋白质结构与功能的关系,以及蛋白质的分子进化的机理,都具有十分重要的理论意义。本论文从以下四个方面研究蛋白质的分子进化和分子内相互作用的关系。(一)根据进化相关性预测蛋白质相互作用面在过去的十多年里,已有大量研究工作致力于预测蛋白之间的相互作用,产生了许多新的预测方法。预测蛋白质相互作用大致分为两步。第一步是预测存在相互作用的蛋白对,第二步是预测相互作用蛋白对之间的相互作用面(InteractioninterFace,IF)。但是目前蛋白质相互作用面的预测都需要事先已知蛋白质的三维结构,如果没有结构信息,目前的方法仅能够预测到相关的位点对。针对这一问题,我们提出了一种仅使用蛋白质序列信息来预测IF的新方法——PIFPAM(Predicting protein Interaction interFaces by using PAM matrix)。目前普遍认为,如果在蛋白质相互作用面上的一个位点发生突变,那么相互作用面的另一侧则需产生互补的突变,以维持相互作用。因此,蛋白质相互作用面的两侧在进化上会呈现出相关性,因而具有结构相似的进化树。基于这一点,我们开发了一个基于序列的、通过比较分析进化树来预测相互作用面的方法。首先,将存在相互作用的两个亚基家族的序列比对好,并使得两个家族具有相同的序列数和序列顺序。然后,各使用一个长度适中的窗口在两个亚基家族序列上进行滑动,给出两个家族亚基的多个序列片断。在进一步计算每个序列片断的距离矩阵后,估算两个亚基之间的所有可能的成对片断对应的距离矩阵之间的相关系数。最后,通过设定一个阈值,选择相关系数大于阈值的成对片断作为可能的相互作用面。首先,我们使用丝氨酸蛋白酶枯草杆菌素(subtilisin)为分子内相互作用面预测的例子,以捕光色素蛋白藻蓝蛋白(phycocyanin,PC)为亚基间相互作用面预测的例子,介绍了PIFPAM法预测相互作用面的步骤。之后,我们详细分析了窗口长度选择、序列选择、阈值选择等多项因素对预测结果的影响,找到了较为优化的参数。在此基础上,我们使用PIFPAM法预测了12个家族蛋白或复合物的相互作用面。对分子内相互作用面预测的精确度是0.41~0.71,对亚基间相互作用面预测的精确度为0.07~0.60。与已报道的方法相比,在相同条件下,此方法在11个家族中预测到了更多的相互作用位点对,并且在其中的8个家族中可以比其他方法多预测超过34%的位点对,显示了此方法的优越性,同时也表明此方法可以推广到其他家族的研究中去。由于此方法仅需要氨基酸序列信息,因此,尤其适用于那些尚未获得三维结构的蛋白家族。对于那些已有部分结构信息的家族,可以通过整合已知结构信息提高预测的精确度。即使对那些完全已知三维结构的蛋白,此方法也可以用于分析在结构中相互接触的作用面两侧在进化上相关性的高低。综上,本论文出了一种仅使用进化信息(序列信息)预测蛋白质相互作用面的新方法——PIFPAM法。PIFPAM法对8个家族蛋白质分子内相互作用面预测的精确度为0.41-0.71,对4个亚基间相互作用面预测的精确度为0.07-0.60。与已经报道的方法相比,在11个(共12个)蛋白家族的预测中超过了其他方法,并且在其中的8个家族中可以比其他方法多预测34%以上的位点对。此外,本章系统讨论了不同参数条件对预测结果的影响。PIFPAM法是第一种不依赖蛋白质三维结构预测相互作用面的方法,因此对尚未解析三维结构的蛋白尤其有用。(二)改进现有的蛋白质进化相关性分析方法虽然计算两个蛋白质进化树的线性相关系数(即r值)的方法已广泛地用于蛋白质的进化分析和蛋白质相互作用的预测中,但是由于此相关系数的计算在很大程度上受序列共同进化历史的影响(通常共同进化历史使得相关系数较大),使得仅靠相关系数数值本身无法有效判断两个蛋白之间是否存在相互作用。本研究的目的就是为相关系数法开发一种统计方法,用以判断两个蛋白之间是否存在相互作用。在本研究中,我们提出了一个基于PAM模型模拟产生具有特定进化历史序列的方法。通过此方法,我们可以产生多套与拟分析蛋白序列具有相同(至少高度相似)进化历史的序列。通过分析这些模拟产生的序列之间相关系数的分布,可以获得在相同进化历史下条件下,随机、独立进化获得拟分析蛋白之间相关系数的概率,即P值。若P值小(如P<0.05),我们可以推测两个蛋白在进化过程中很可能存在相互作用。我们构建了PC的α和β亚基融合序列的邻接树作为引导树,模拟产生了1000套融合序列,并计算了各模拟树与引导树之间的相似性。总体上,模拟树与引导树具有很高的相似性,相关系数为0.864±0.021。各模拟树之间的相关系数为0.824±0.039。上述结果表明此模拟方法得到的模拟序列与原始序列具有相似进化历史,因此可以用于下一步的P值计算。PC(αβ)单体内亚基间有很大的相互作用面,根据相关突变的基本思想,作用面之间应该具有协同进化的关系。我们计算了两个亚基作用面之间的相关系数,为0.515,模拟序列的相关系数为0.266±0.135。通过位点间独立、随机进化得到不小于相关系数0.515的概率仅为P=0.029,在统计上显著,说明相互作用面的位点在进化上存在相关性。但是对PC的α亚基全长和β亚基全长之间相关系数的计算表明,尽管两者具有很高的相关系数0.644,但是它的P值高达0.802,说明此相关系数主要来源于两个亚基之间的共同进化历史。PC的相互作用面在进化过程中存在相互作用,但是整体亚基却无法得到显著的相互作用信号,这可能有两方面原因。一个原因可能是拟分析序列的共同进化历史信号太强,掩盖了相互作用信号。另一个可能的原因是蛋白内相互作用面外其他区域的进化特点不同于相互作用面,不同区域具有不同结构的系统发育树,将不同区域合在一起分析使得相互作用信号被抵消。这个结果提示我们需要进一步分析比较蛋白质不同区域的进化特征。综上,目前广泛使用计算相关系数的方法进行蛋白质共进化分析和相互作用预测,但是此方法并无法直接判断拟研究的两个蛋白是否真正存在进化相关性和相互作用。针对上述问题,本研究提出了一种基于PAM模型模拟序列进化的方法来改进现有方法。改进后的方法可以给出一个统计值(P)值),说明拟研究的两个蛋白不存在相互作用的条件下得到此相关系数的概率(P值),P值越小,说明两个蛋白存在相互作用的可能性越高。本论文使用PC作为例子研究了PC的α-亚基和β-亚基的相互作用面,以及整个α-亚基和β-亚基的进化相关性,发现亚基相互作用面进化中相互关联(r=0.515,P=0.029),而整个亚基进化上则不显示相关性(r=0.644,P=0.802),暗示着藻蓝蛋白的不同区域具有不同的进化特征。(三)蛋白质分子内相互作用网络的进化分析蛋白质分子内的氨基酸残基形成一个十分庞大的相互作用网络。通过对氨基酸序列的分析可知,网络内各结点(氨基酸位点)的进化速率不同。在蛋白质三维结构中,这些保守位点并不是随机分布(均匀分布)的,而是一些保守位点倾向于聚在一起。成簇聚在一起的保守位点很可能受到相同的选择压力制约。通过对PC的(αβ)单体内残基间相互作用网络的分析发现,整个相互作用网络由多个从内层向外层保守性依次降低的子网络构成。进一步分析可以发现,部分子网络的核心层残基完全保守,并且对应于蛋白已知的功能中心或结构中心。对于PC(αβ)单体来讲,它的三个藻胆蓝素(phycocyanobilin,PCB)代表了蛋白的三个功能中心,这三个功能中心分别存在于以PCB为中心的三个保守子网络中。PC(αβ)单体内亚基间的相互作用面上对亚基的识别和结合其重要作用的两个盐键也分别位于两个保守子网络的核心层中。上述结果表明,蛋白质的功能中心和结构中心以及它们各自的周围残基的确形成了由内层向外层保守性逐渐降低的子网络。本研究利用改进的相关系数法分析不同功能和/或结构中心之间协同进化,结果显示,在21对子网络对中,仅有2对在进化中存在相互作用。上述结果表明,整个藻蓝蛋白的进化是以区域(多数对应于功能和结构中心)为单位的,不同区域具有不同的进化特征和进化树。(四)进化过程中分子内相互作用的优化策略本论文通过研究适冷酶的适冷进化来研究探讨蛋白质进化过程中分子内相互作用的优化策略。适冷酶通常由生活于永久低温环境(如深海、极地和高山)的生物所产生。适冷酶由于在低温下具有高的催化效率,因此是近年来生物化学和相关领域的研究热点之一。目前对适冷机制最流行的解释是适冷酶通过降低热稳定性来提高柔性,而高的柔性则赋予酶高的催化效率。但是,也有报道发现同时具有高的催化效率和高的热稳定性的适冷酶。因此,深入研究适冷酶催化效率-柔性-稳定性三者之间的关系,阐明酶适冷进化的结构基础,对于适冷酶研究以及生物化学相关领域的研究具有重要意义。我们从深海细菌Pseudoalteromonas sp.SM9913和北极海冰细菌Pseudoalteromonas sp.SM495中鉴定了属于thermolysin家族(嗜热菌素家族,M4)的两个新的金属蛋白酶,分别命名为MCP-02和E495。这是thermolysin家族中首次报道生化性质的低温来源的酶。将深海MCP-02和北极E495同来源于陆地细菌的中温同源酶pseudolysin进行系统的生化和结构性质比较,结果显示,酶的催化效率和柔性具有相同的顺序,都随来源环境温度的降低而升高,为中温pseudolysin<深海MCP-02<北极E495。但是,酶的热稳定性却有如下顺序:中温pseudolysin>深海MCP-02≈北极E495。上述柔性和热稳定性的顺序上的差异表明,在适冷进化过程中,稳定性的降低并不是提高柔性所必须的,这与目前流行的适冷机制不同。长时(30 ns)分子动力学模拟和结构分析表明,蛋白质的热稳定性与静态结构中的平均氢键数目和平均盐键数目有关,键数目越多,结构越稳定。上述三酶静态结构中含有的盐键数目为中温pseudolysin(13.4±0.8/14.4±1.1)<深海MCP-02(8.1±1.0/8.1±1.0)≈北极E495(5.8±0.9/8.0±1.0);而平均氢键数目基本相同,为中温pseudolysin(219±6/206±7)≈深海MCP-02(221±7/210±7)≈北极E495(219±7/209±7)。序列分析表明,Arg数目减少是盐键数目减少的主要原因。氢键是蛋白质结构中最重要的次级键,所以很有可能成为蛋白质适冷过程中的优化对象。对于动态结构的研究结果表明,虽然静态结构中氢键的平均数目不变,但是动态结构中氢键的组成和平均寿命却明显不同。我们使用氢键的持续性(persistency)来表征氢键的寿命和稳定性,定义为一定时间段内,每个氢键实际存在的时间占总时间段的比例。氢键持续性越高,氢键寿命越长,越稳定;反之,寿命越短,越不稳定。分析表明,动态结构中,氢键的平均持续性顺序为中温pseudolysin(29.2%/22.3%)>深海MCP-02(28.4%/20.5%)>极地E495(24.7%/18.7%),说明随着生存环境温度的降低,酶中所含氢键的平均持续性也是降低的。氢键持续性顺序与柔性顺序高度相关(R=-0.9995,SD=0.0039),说明在适冷进化中,深海MCP-02和极地E495是通过降低氢键持续性来提高构象柔性的。氢键持续性的分布表明,适冷酶中低持续性氢键的数目增多是动态结构中氢键平均持续性降低的主要原因。结合氨基酸序列分析可以发现,由pseudolysin到MCP-02/E495,氢键平均持续性降低与Asn含量的升高有关,而由MCP-02到E495,氢键平均持续性降低则与Ser+Thr的含量升高有关。在thermolysin家族蛋白酶的适冷进化中,主要通过增加Asn、Ser和Thr残基的数目来形成更多的低持续性(低稳定性)氢键,这些新增氢键使得蛋白具有更多的低能构象。由于新增氢键多数具有低的持续性(稳定性),因此,这些低能构象之间的能垒比较低,蛋白能够在这些低能构象之间相对容易地转换,从而使得蛋白具有较高的柔性。较高的柔性则增加了酶的催化效率。上述结果也表明,蛋白的柔性和稳定性是由相关但并不相同的结构因素决定的,降低稳定性并非提高柔性的前提。稳定性主要取决于静态结构中键(主要包括氢键和盐键等)的(平均)数目,键数目越多,稳定性越高;而柔性则与这些键的动态持续性(键的稳定性)相关,键的动态持续性越低,柔性越高。这也是之前研究报道中对适冷酶和中温酶静态结构(如晶体结构)的比较经常显示氢键数目没有显著差异的原因。本研究是对深海和北极海冰来源的Thermolysin家族蛋白酶性质的首次系统报道,并首次提出了Thermolysin家族蛋白酶的适冷进化模型。本研究首次提出优化氢键动态持续性是酶的一项适冷策略,是蛋白质适冷进化研究的新发现。本研究首次提出构象柔性由键(如氢键)的持续性所决定,而不是由蛋白稳定性所决定,这对于更深入理解酶的催化效率-柔性-稳定性三者之间的关系,以及蛋白质结构与功能之间的关系具有重要意义。上述四方面的研究,前三项是从残基角度展开研究的,第四项是从相互作用(键)的角度展开研究的。前三项的研究表明,在进化中,蛋白质内部相互作用面影响着(或限制着)作用面两侧残基的进化,而蛋白质的分子内相互作用网络则是以区域(功能中心和结构中心)为单位,独立进化的。第四项研究告诉我们,分子内相互作用的优化是蛋白质分子进化的一个重要策略。