基于模块归一化及自适应跳转随机游走的疾病基因预测

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zmy_java
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物学技术的迅猛发展,生物数据正在以几何数量级的速度增长。利用已知的生物网络和多源生物数据找到致病基因,对于了解疾病的发病机制、研发新型药物、制定精准医疗方案等都起到重要的促进作用。本文基于生物相互作用网络通过模块归一化及自适应跳转随机游走方法对致病基因进行预测,主要的研究工作和贡献如下:第一,当前大部分基于模块的疾病基因预测方法都是根据已知的模块或guilt-by-association假设进行预测,但这些方法往往忽略了致病基因在具体网络中的拓扑特性,并且没有考虑对网络中孤立节点的处理。针对以上问题,本文提出了一种基于模块归一化和表型本体的疾病基因预测方法(NMP)。首先,本文根据最新的疾病、基因表型本体数据对疾病和基因之间的相似度进行定义。然后,基于致病基因的模块聚集特性,本文将候选基因所处模块进行表型归一化处理作为候选基因的权重。最后,通过留一交叉验证和文献查找对NMP方法的有效性进行验证。实验结果表明,NMP方法优于传统的NetRank、NetScore、NetZcore、Flow、RWR和最新的NDRC方法。第二,当前尚不存在完整的蛋白质相互作用网络并且存在许多假阴性和假阳性数据,仅通过单个网络已很难提高预测致病基因的精度。研究表明,功能相关的多个基因发生突变往往会产生相似的表现型,因此将表型和蛋白质数据进行融合能够弥补已有数据的不足,提高预测的准确度。已有的基于异构网络的随机游走算法虽然取得了不错的预测效果,但是需要对跳转概率进行多次调整,不具有普适性。本文提出一种基于异构网络拉普拉斯正则化的自适应跳转随机游走方法(LSAR),对1428个已知的疾病基因相互关系进行留一和留二交叉验证。实验结果表明,LSAR方法不但减少了参数设置,并且预测效果优于传统的RWRH、CIPHER-SP、 CIPHER-DN方法和最新的RWRH-RE、RWRHN、LapRWRH方法。并且根据预测结果,我们对乳腺癌、糖尿病、肺癌、肥胖症四种疾病的致病基因做出预测。
其他文献
XML已成为网络数据表示和信息交换的标准。随着XML在各个领域的广泛应用,其安全性也更多地受到人们的关注。   本文针对XML安全问题,分析了RSA密钥机制和XML自身的特点,将XML
学位
支持向量机因其坚实的理论基础与优越的学习性能已被广泛运用于大规模数据的学习中,但支持向量机优越性是建立在小样本的基础之上,在大规模样本的学习问题上它却并未表现出优势
互联网时代的到来,标志着我们生活方式的巨大改变。人们通过网络可以获取各种想要的信息。特别是伴随着Web技术由Web1.0向Web2.0逐渐过渡,金融领域信息开始在网络上进行集散,
数据仓库和OLAP联机分析系统提供了一些方法和工具来分析企业信息系统中的数据事务。但是,只有其中20%的信息是可以被OLAP分析系统分析。对于其他的80%的数据,大部分都是文件
粒子群优化算法作为一种新的智能优化算法,由于其收敛速度快、参数设置少,近年来受到众多学者的研究和重视。它常被用于解决大量非线性、不光滑和多峰值的复杂问题优化,现己广泛
“地震成像”领域的巨大进展是推动石油勘探工业的快速发展的主要动力。地震成像系统实现地震勘探结果的成像,便于地震数据解释人员、地质工程师等对地下地质构造、分层信息
人体运动中包含大量的情感信息,是情感识别领域新的研究方向。但是目前基于人体运动进行情感识别的工作基础薄弱,大多是人工判别或者提取一些基本物理运动信息作为特征量进行机
近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难,搜索引擎的出现为解决这一难题提供了方便。 
关联规则一直是数据挖掘领域中一个研究热点,被广泛的应用于各个领域。随着web2.0时代的到来,特别是以用户为主导产生互联网内容的社交网络的兴起,数据积累呈现出指数级的增
随着虚拟现实和计算机动画的发展以及游戏领域的需要,树木在风中摆动的模拟已成为研究热点。至今,在树的建模以及树木在微风中的运动方面,已有很多研究。但树木在强风作用下