基于基因本体结构的蛋白质功能预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:skykight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的主要物质基础,参与并执行生物体内的各种重要功能。整合海量生物数据中的蛋白质特征和功能信息并对蛋白质进行自动且准确的功能标注,可以帮助人类更好地认识和理解生命过程,对疾病分析、药物研发和生物能源开发等领域的发展都有极大的推动作用。近年来,基于机器学习技术的蛋白质功能预测研究受到广泛的关注,获得了较高的精度。但是,这些方法通常假定已有的蛋白质功能标注信息是完整的,并把蛋白质功能预测问题建模为一般的多标签学习问题,忽略了由于实验条件限制和生物学研究热点等因素造成的功能标注不完整性和不平衡性,以及功能标签之间的层次结构关系在功能预测中的重要作用,预测精度依然有限。多种异构蛋白质数据源可以转化为蛋白质之间的功能关联网络克服异构性,一些方法通过整合这些关联网络提高了功能预测精度。然而,这类方法在整合的效率和效果等方面均存在困难。充足的正负样例有助于提高分类器的区分能力进而提升预测精度,由于负样例的缺失,大部分蛋白质功能预测方法仅能利用蛋白质已知的正样例,或启发式地选定负样例,极少关注对负样例的识别,也限制了预测精度。本文针对蛋白质功能预测研究中存在的上述问题,以如何结合基因本体层次结构为出发点,以提高蛋白质功能预测精度为目标,以机器模型构建与求解为基本手段,围绕蛋白质缺失功能预测,负样例预测和面向多源数据集成的蛋白质功能预测分别展开深入研究,提出一些计算方法。本文的主要贡献包括:1、针对蛋白质功能标注普遍存在缺失的问题,提出一种基于有向混合图的蛋白质功能预测方法(dHG)。dHG针对蛋白质功能标签的不完整性,标签之间层次结构关系和蛋白质缺失标注的规律,设计了一种由蛋白质互作网和基因本体有向无环图构成的有向混合图,并在该混合图上设计有向重启动随机游走预测蛋白质功能。分析表明,dHG不仅能更好地预测蛋白质缺失功能,还能预测功能完全未知蛋白质的功能,效率也较以往方法更高。为更进一步利用有向混合图的结构差异性,提出一种基于异步随机游走的蛋白质功能预测方法(NewGOA)。NewGOA不仅考虑了有向混合图中蛋白质互作网和基因本体子图之间的结构差异性,还考虑了蛋白质互作网中的噪声互作。NewGOA继承了dHG的所有优点,实验表明NewGOA获得的预测精度和效率比dHG和其他相关方法更高,这些混合图上的随机游走策略还可以推广应用到其他关联预测问题中。2、针对蛋白质的负样例极少,限制了分类器的区分性和精度等问题,首先提出一种基于基因本体结构的蛋白质负样例预测方法(NegGOA)。NegGOA分别基于功能层次结构关联和功能共同出现的经验条件概率对蛋白质的缺失功能进行预估,再根据这两类预估筛选蛋白质的负样例功能。分析表明,NegGOA受蛋白质功能标注的不完整性影响较小,它预测的负样例不仅错误率更低,且还能显著提升蛋白质功能预测的精度。为进一步整合利用蛋白质特征信息和已知的少量负样例,提出一种基于正负样例的蛋白质功能预测方法(ProPN)。ProPN利用已知的蛋白质-功能正负关联信息、蛋白质互作信息和功能标签关联构建符号混合图,再通过符号混合图上的信息传播算法预测蛋白质功能。分析表明,ProPN不仅能较好地预测蛋白质负样例,还能预测蛋白质未知的正样例。考虑到蛋白质功能标签空间巨大,蛋白质互作网中存在较多的噪声互作和缺失互作等现实困难,本文进一步提出一种基于降维的蛋白质不相关功能预测方法(IFDR)。IFDR通过在蛋白质互作网邻接矩阵和蛋白质-功能标签关联矩阵上分别进行随机游走,挖掘蛋白质之间的内在关系和预估蛋白质的缺失功能标签,再将上述2个矩阵投影降维为低维实数矩阵,再利用半监督回归预测负样例。在多个模式的生物蛋白质数据集上的实验表明,IFDR比已有相关算法能够更准确地预测负样例,对网络和标签空间的降维均可以提高负样例预测精度。3、在基于多源数据集成整合预测蛋白质功能方面,提出一种基于多网络语义集成的蛋白质功能预测方法(SimNet)。SimNet首先利用加权的重合相似性度量构建蛋白质之间的语义网络,再将多个蛋白质关联网络向该语义网络对准,进而优化各个网络的权重系数并整合这些网络成一个复合网络,再在复合网络上基于局部全局一致性学习方法预测蛋白质功能。分析表明,SimNet能相对以往的相关方法更高效准确地整合多源数据预测蛋白质功能。为了区分性地整合多个网络,并处理较大的功能标签集合,提出一种基于多网络数据协同矩阵分解的蛋白质功能预测方法(ProCMF)。ProCMF基于非负矩阵分解将蛋白质功能标注矩阵分解为两个低秩矩阵,并基于这两个低秩矩阵分别定义基于网络结构和标签关联的平滑性正则项约束指导矩阵协同分解,再对不同网络设置权重,并把权重优化和功能预测统一到一个目标方程中。在酵母菌,人类和老鼠蛋白质数据集上的实验证明ProCMF较现有相关算法能获得更好的预测结果,并能高效地处理大量存在关联的功能标签,区分性地整合多个网络,且对输入参数鲁棒。
其他文献
在现阶段陆上资源勘探已经较为深入的背景下,海洋这一巨大的资源宝库并没有得到很好的开发和利用。特别是我国的南海海域,矿产资源开发程度较低,只有深入海洋,才能有效减小我
研究了PVP改性的SiO2载体对Rh-Mn-Li/SiO2催化剂催化CO加氢制备C2+含氧化合物反应性能的影响。活性结果表明,Rh-Mn-Li/SiO2(1)催化剂拥有最高的CO转化率(24.8%)和C2+含氧化合物的
本研究以山东省省直部门184个单位的公务员为研究对象,总计3081人。研究按总体、10岁年龄段和男女分类进行统计分析。调查测试方法以传统体质测试评价方法为基础,增加了身体
狂犬病是人们熟知的一种传染性疾病。狂犬病是由狂犬病毒引起的,一旦人类和动物发病,几乎100%导致其死亡。暴露后预防(PEP)是控制其发病的最好方法。暴露后预防包含三个步骤:
2016年全国城市民族工作会议指出,做好城市民族工作,是加强和改进新形势下民族工作和城市工作的重要内容。目前我国城市民族工作整体上呈现出复杂化、动态化、多变化、长期化
政府和社会资本合作体现的是政府与社会投资者之间互相协同、利益共享、风险分担的合作伙伴关系。我国正处于政府职能的转型阶段,要想在政府和社会资本合作中达成良性有效的
在经济全球化不断深化的大背景下,腐败现象也会随着交流的日益密切而相互交错,正成为一种影响社会和经济的跨领域以及跨国现象,并且越来越呈现出复杂化、有组织化、国际化的
1980年,McKay[18]对一般线性群的有限子群引入了McKay箭图的概念并且指出对于有限子群G(?)SL(2,k),其McKay箭图QG就是仿射Dynkin图An,Dn,E6,E7,E8.郭在[13]中指出,一般线性群
“中小学教师国家级培训计划”(简称“国培计划”)是由教育部、财政部于2010年开始实施,旨在提高农村中小学教师队伍整体素质的重要举措。山西省自2010年开始组织实施山西省
社会行政是政府解决社会问题、纠正社会病态、调整社会关系、革新社会制度、消除社会不平不均现象、推进社会建设、谋求社会福利的重要方式和手段。这种方式古代已有之,但其