论文部分内容阅读
目的:我们通过分析公共数据库中已经公布的含有活动性肺结核(active pulmonary tuberculosis,APTB)和对照样本的微阵列数据来找到具有差异表达的模块,借助蛋白质-蛋白质相互作用(PPI)网络对APTB的病理机制进行评估。以STRING数据库检索到的PPI网络生成的差异表达网络(DEN)作为基础,根据DEN的程度特征提取自我基因,并基于EgoNet算法的基因扩增收集模块,最后通过随机置换测试评估APTB和对照组之间的模块的差异表达,之后基于Reactome数据库的途径富集分析检测差异模块的生物学意义。了解APTB的发病机制,并为有效治疗APTB提供潜在的生物标记物。方法:1.微阵列的可用性和预处理我们通过Array Express-数据库收集APTB的原始数据(登录账号:E-GEOD-56153)。微阵列共包括18名APTB患者,18名健康对照者,15名经过8周治疗和28名经过28周治疗的APTB患者。在我们的研究中,为了进一步探索结核病的分子机制,我们只选择了该微阵列中18例APTB患者和18例健康对照者进行之后的分析。原始数据由MicroArray Suite(MAS)软件(版本)5.0进行预处理。将探针数据映射到基因符号之后,总共获得17,638个基因。2.DEN的构建和权重值的计算首先,我们在STRING数据库中检索到覆盖787,896个相互作用的全部PPI网络和16,730个基因。接下来,将已经确定的微阵列图谱中的所有基因都映射到全部的PPI网络从而剔除无关的相互作用。最终,我们提取了 8,157个基因中的50,355个相互作用来构建背景PPI网络。接下来,我们采用皮尔森相关系数(PCC)来评估背景PPI网络中的基因互作,这也是用来衡量两个共表达基因的概率的指标。在当前的工作中,我们将基因互作的PCC绝对值确定为预定义的阈值K,并且仅选择K≥0.8的互作来构建DEN。最后,将权重值分配给DEN中的每个边缘,通过单侧t检验来计算APTB和对照样本中的差异表达的P值。3.差异模块分析EGO算法的设计目的是检测与ego相关的模块,并具有最大的分类准确率。该算法框架包括四个基本步骤:(1)提取高z-分值的自我基因;(2)功能模块的收集;(3)优化;(4)显著性过滤。3.1自我基因鉴定在模块检测之前,我们首先鉴定一系列的初始自我基因。为了发现自我基因,我们首先将DEN中的基因按度特征进行排序。之后,根据公式(?)计算出DEN中每个基因的z值。在这个公式中,Nk(i)代表网络中的邻居集合;A,为度数归一化加权邻接矩阵,记为Ak =D-1/2AD1/2。然后,Z分数按降序排列。在我们的研究中,排名前5%的基因被命名为自我基因。3.2功能模块集合在识别自我基因后,我们将每个自我基因作为起始,并应用分类准确性指数来评估模块收集的规模。重复该过程直到分类能力没有增加。这个模块扩展过程被称为滚雪球抽样法。详细地说,对于给定的自我基因nGN,它被定义为DEN中的模块X之后,将自我基因n的邻居集合基因m连续组合到模块X中,接着识别出新的模块X’。计算两个模块之间分类精度的变化:△F(X’,X)= F(X)-F(X’)。当△F(X’,X)>0时,表示基因m的加入增加了模块X的分类能力,直到分类权下降,停止搜索步骤。3.3优化在收集候选模块后,我们对这些候选模块进行了优化,同时保持了它们的分类准确性,在我们的研究中,基因数量≤5且分类能力<0.9的模块将被删除。3.4统计显著性评估在此步骤中,根据随机置换测试产生的分类准确度,计算模块显著性的经验P值:随机置换测试中随机选择每个模块的分类准确度,并重新运行该算法。随机置换测试在同一模块上重复1000次,通过将观察到的候选模块的分类准确度值与置换测试计算的准确性分数进行比较来记录模块的P值。接下来,利用多重测试的校正来控制假阳性,而降低多重测试假阳性的一种常见方法是控制错误发现率(FDR)。在我们的研究中,使用Benjamini-Hochberg方法将原始P值校正为FDR。只有FDR不小于0.05的模块被认为是差分模块。4.具有功能类别的模块注释为了评估差异模块中的通路水平,我们使用了 Reactome和背景PPI的数据来检测在差分模块中包含的注释。所有通路均从Reactome数据库获得,然后提取每条通路中富集的基因与背景PPI网络中的基因之间的交集。当移除基因数<5的基因或>100的通路时,我们获取了 1137个种子通路并进一步分析。随后,差异模块的基因与每个种子通路对齐,确定了每个差异模块富集的通路。利用Fisher’s检验来计算原始富集P值。之后,应用Benjamini&Hochberg方法计算FDR以进一步校正P值。在该研究中,我们定义FDR<0.05的途径为差异模块富集的通路。值得注意的是,一个模块可以富集多种通路。根据FDR得分将每个模块富集的通路进行排序,选择FDR最低的通路作为给定差异模块的显著通路。结果:1.DEN的构建通过对微阵列图谱中的17,638个基因和PPI网络进行分析,共提取了50,355个相互作用和8157个基因,构建了背景PPI网络。为了使网络更有可信度,选择k≥0.8的背景PPI网络中的相互作用来构建DEN。DEN覆盖了 940个基因和5647个相互作用。2.鉴定自我基因在我们的研究中共鉴定了 47个自我基因,并发现这些基因的z值均大于100。其中,有6个自我基因的得分高于300,包括RPL35(332.026),RPS20(357.377),RPL19(333.121),RPS19(332.626),RPL27(328.252),RPS13(309.069)。有趣的是,我们进一步发现这47个自我基因中,一类与RPL相关,另一类与RPS相关。这些ego基因与核糖体蛋白相关,而这些蛋白被认为与APTB中的耐药性具有相关性。3.模块集合如方法一中所述,我们共获得了 47个候选模块。模块的平均基因数为5个。当我们淘汰了基因数≤5且分类能力小于0.9的模块,共识别出7个自我模块,包括模块4,模块7,模块9,模块19,模块25,模块38和模块43。值得注意的是,我们发现这7个自我模块分类能力是相同的,且最高的分类能力为1,这进一步表明这些自我模块可以准确区分APTB与健康对照样本。然而,这7个自我模块的基因组成是不同的。具体来说,模块7拥有最大的基因大小,包括 RPL19(ego 基因),RPL29,RPL32,RPL37,RPL14,RPL7A,UBC,TRIM21 和 RIPK2。4.评估自我模块的统计显著性我们应用随机排列测试来进一步测量活动性结核病患者与健康对照之间的自我模块的重要性。对于每个自我模块,随机排列测试均进行了 1000次。结果显示,7个自我模块的FDR都等于0,这表明这些模块之间是有差别的。5.功能类别的模块注释从结果中我们发现模块4,模块25,模块38和模块43中的基因在相同的途径中富集,形成游离的4:0S亚基池。此外,模块7和模块9的重要途径是真核翻译终止途径。模块19的差异途径是由外显子连接复合物(EJC)增强的无义介导的衰变。结论:在本研究中,我们利用一个基于自我中心网络分析技术的分析方法,从大规模的生物网络中详尽搜索并按优先顺序区分出疾病子网络和标记基因。最后将区分出的疾病子网络进行通路富集分析。最终我们成功地提取了 7个富含3种差异通路的差异模块。这些模块和相应的自我基因以及通路可能是APTB诊断和治疗的基础标志,我们的研究揭示了 APTB机制的潜在启示。