论文部分内容阅读
复杂疾病是在众多因素共同作用下发生的,遗传模式相对复杂。其中部分复杂疾病会出现突然恶化现象,我们称为临界状态。在临界状态出现之前,病情变化缓慢;在该状态之后,病情短时间内迅速恶化,使得治疗难度增大,生存时间变短,危害性极大。因此,及时地诊断出临界状态,识别疾病突然恶化前的预警信号尤为重要。本文以甲型流感为研究重点,将动态网络生物标志物(DNB)应用于蛋白质序列,构建预警指标,对十个国家甲流疫情暴发前的临界状态进行识别。通过预警指标捕捉到与疫情暴发相关的流感亚型,并从甲型H1N1、H3N2疾病的基因表达数据入手,改进DNB方法筛选主导基因网络,识别不同甲流亚型疾病的临界状态。本文工作如下:(1)选取不同国家已报道的甲流病毒的十种蛋白质序列数据,按顺序提取出第y年所有序列中首次出现次数最多的氨基酸,组成新的序列。将第y+1年原始序列与第y年的新序列进行比对,得到第y+1年蛋白质数据的0-1序列。进一步提取0-1序列的23维数字特征,构建十种蛋白质相互作用的动态网络,找出DNB构造早期预警指标来量化甲流疫情的暴发信号,从而有效识别疫情的暴发临界点。并根据指标捕捉到甲流亚型出现时的显著信号变化,对H1N1和H3N2亚型进行下一步分析。(2)基于(1)的研究,选取人体支气管上皮细胞感染H1N1流感病毒的基因表达数据,对比正常样本与感染样本,初步筛选差异表达基因(DEGs)。为防止不同基因表达量造成的误差,通过特殊Z-score方法标准化表达数据。运用Hierarchical聚类将差异表达基因分为40类,结合三个指标SD、PCC和OPCC确定DNB。在整体基因网络层面中基于指标CV、DIF和ODIF构造预警指标EWI,识别H1N1疾病的临界状态。这对甲型H1N1病情恶化的预防起到重要作用,并且得到的基因网络也为研究流感疫苗提供重要参考数据。(3)基于(1)的研究,选取健康志愿者接种甲型H3N2流感病毒后外周血的基因表达数据。不同于(2)中的数据结构,接种病毒后不同时间点的感染样本分别与接种前的基因数据进行显著性分析,得到每个时间点的差异表达基因。根据轮廓系数确定每个时间点的最优分类,并分别进行K-means聚类。结合指标CV、PCC和OPCC确定每个时间点的主导网络。综合所有时间点的主导网络作为DNB,构建预警指标EWI识别H3N2疾病的临界状态,深入分析主导网络中基因的构成与功能。