基于异构网络拓扑数据的人类必需基因预测算法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:gyl722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组研究表明,基因组中有一小部分基因对于有机体的生存和繁殖不可缺少,这些基因被称为必需基因。必需基因对于维持生物体的生存和发育至关重要,如被敲除,将会导致其死亡或者不孕不育。对人类必需基因的识别不仅能够了解人类生存和繁殖的最低要求而且有助于寻找人类疾病基因和新的药物靶点。目前对必需基因的研究主要有两种方法,即实验方法和计算方法。实验方法预测必需基因虽有效但价格昂贵且耗时费力,开发高效的计算方法预测必需基因是对实验方法必要且有效的补充。传统的计算方法常以单一特征指标对人类必需基因进行预测,预测精度普遍不高。本文在充分利用已有的多种预测必需基因网络的基础上,提出了整合异构网络拓扑数据的思想,将多个异构网络通过重启动随机游走算法融合成一新网络。它充分考虑了基因在不同网络间的各种关联程度。实验结果表明整合异构网络拓扑数据方法比基于单一网络的预测模型能更准确地预测人类必需基因。本文主要从两阶段来介绍人类必需基因的预测。第一阶段是数据的前期收集与处理。在本阶段,首先是从DEG数据库和STRIGN数据库分别获取到人类必需基因、具有基因拓扑结构的六种异构预测网络。其次,利用重启动随机游走算法有效融合六个异构网络的拓扑数据,将六个网络整合成统一的基因预测网络,得到一个保留各个异构网络主要拓扑属性信息的低维特征矩阵。最后,以此矩阵作为训练样本,利用SMOTE过抽样算法解决训练支持向量机过程中的正负样本不平衡问题,训练得到基于支持向量机方法的人类必需基因预测模型。第二阶段是实验结果分析与评价阶段。本阶段首先是对训练结果进行分析,并依据实验结果不断进行参数寻优,寻找最优的预测模型。其次,使用准确率以及ROC曲线评价整合异构网络拓扑数据预测方法和各种单一网络预测方法的性能。实验结果表明整合异构网络拓扑数据方法预测人类必需基因的性能要优于各种单一网络。最后,基于同一异构网络拓扑数据,对比了循环神经网络模型与随机森林模型的必需基因预测效果,实验结果证明采用支持向量机模型对人类必需基因预测性能更优。
其他文献
天然气水合物被广泛认为是一种优质、洁净的可替代能源,具有广阔美好的开发利用前景,被誉为“后石油时代”最有希望的战略资源。主要开采方法有降压法、热采法、注抑制剂法及
颗粒细胞位于卵泡内,介于膜细胞和卵子之间,可将膜细胞合成的雄激素转化为雌二醇,连同其分泌其他生长因子和营养物质在促进卵子发育的过程中发挥重要作用。一旦颗粒细胞发育不良可直接导致动物繁殖性能下降。LPS作为革兰氏阴性菌细胞壁的组成成分,可直接作用于颗粒细胞并影响其功能,并且严重影响动物繁殖性能。为深入探讨LPS对猪颗粒细胞发育和功能的影响,本论文主要探索了猪颗粒细胞体外分离培养的新方法,并在此基础上
背景:结节病(Sarcoidosis)是一种未知原因导致的多系统受累的疾病,其特点是炎症性活动多伴发肺部非干酪性肉芽肿,可累及多脏器,最常见是肺部受累。目前认为结节病的致病机制是存在特殊遗传背景的患者,因暴露于某种未知抗原后,患者组织器官内产生了肉芽肿反应。结节病常出现家族聚集现象,遗传率估计高达66%,不同种族之间结节病的发病率也有所差异。针对结节病患者的全外显子组研究可以发现突变位点及所在基因
人类关于恒星本质的认知,大多都是从恒星光谱中研究得到的。光谱中蕴含着丰富的信息,随着LAMOST第六期光谱观测任务圆满结束,该项目产生了大量光谱数据。因此,寻求有效且准确
现代城市人口聚集,建筑物集中,城市的系统风险性与脆弱性也随之增加。近年来,快速增长的机动车又使路网饱和度越来越大。因此,一旦发生突发事件,很容易造成交通拥堵甚至是交通瘫痪,此时事件影响范围内的救援与疏散工作紧急且繁重。因此,研究突发事件下城市交通应急组织策略,对降低突发事件对交通的影响,减少突发事件引起的恐慌,保障人民群众的生命与财产安全具有重要意义。本文从突发事件的定义、类别及特征出发,分析了突
目的:深入了解以转录因子组合或小分子化合物组合对胚胎成纤维细胞重编程为睾丸间质细胞命运的抉择作用及其可能的分子机制,为日后获得更具基础研究和临床应用价值的成体细胞重编程睾丸间质细胞提供理论依据及方法。方法:从美国国立生物信息中心下载RNA-Seq数据集(GSE87020、GSE145797),对下载原始数据进行筛选及均一化处理,然后分别对转录因子组合诱导组(transcription factor
目的:探讨肝脏和胰腺铁过载T2*值与腰椎和髋部骨密度(BMD)的相关性及脏器铁过载对双能X线骨密度测量仪(DXA)腰椎BMD测量结果的影响,旨在进一步了解铁过载与骨密度的相关性以及DXA评估铁过载患者骨质疏松症的可行性。方法:选取北京协和医院2014年3月至2019年5月临床上确诊铁过载的患者34例,用MRI技术中的多回波梯度回波序列测定其肝脏及胰腺的T2*值,DXA测定腰椎和髋部的BMD等指标。
Lycorine型生物碱是一类存在于石蒜科植物中的重要的天然产物,其主要生理活性表现为抗肿瘤、抗乙酰胆碱酯酶、抗炎等作用。而γ-Lycorane是Lycorine型生物碱的典型代表化合物
目的:乳腺癌是全球女性最常见的恶性肿瘤,PTX为乳腺癌临床常用化疗药物,在治疗乳腺癌方面具有良好的疗效,但随着药物的持续使用,耐药现象严重制约了其临床疗效。UA是广泛分布于山楂、熊果、白花蛇舌草等植物中的五环三萜类化合物,其具有抗肿瘤、抗氧化等多种作用,我们前期研究发现UA能逆转乳腺癌紫杉醇MCF-7细胞的耐药,且可以促进mi R-149的表达水平,降低My D88的表达水平,在此基础上进一步通过
本论文针对东营凹陷林樊家—尚店地区馆陶组开展沉积相以及有利储层的研究。运用层序地层学、石油天然气地质学等相关理论和方法,利用测井、录井、地震、岩心以及相关背景文