【摘 要】
:
研发新药是一个代价高昂的事情,既耗时又费钱。为已经问世的药物探寻新的治疗效果有助于降低药物的研发成本。在先前的研究中,大部分预测方法只考虑了单一来源的药物和蛋白数据。即没有从多个维度去考虑药物、蛋白相关的信息,也没有充分利用全部的已知数据信息。因此,开发一个将多种药物和蛋白相关数据融合起来方法是很有必要的。本文提出了三种融合多种生物信息数据的预测方法,一种是基于梯度提升决策树探究药物与蛋白之间的相
论文部分内容阅读
研发新药是一个代价高昂的事情,既耗时又费钱。为已经问世的药物探寻新的治疗效果有助于降低药物的研发成本。在先前的研究中,大部分预测方法只考虑了单一来源的药物和蛋白数据。即没有从多个维度去考虑药物、蛋白相关的信息,也没有充分利用全部的已知数据信息。因此,开发一个将多种药物和蛋白相关数据融合起来方法是很有必要的。本文提出了三种融合多种生物信息数据的预测方法,一种是基于梯度提升决策树探究药物与蛋白之间的相互作用的预测方法,一种是基于自动编码器的药物与蛋白的互作预测模型以及一种基于图卷积的集成学习预测模型。NGDTP是一个基于非负矩阵分解和梯度提升决策树的药物蛋白互作预测方法。在本文的数据中,已知的药物-蛋白互作(正例)有1923个,而未知的互作(负例)有100多万个,这使得数据存在严重的类别不平衡。其实,负例对本文的预测效果也是有帮助的,可以为本文的实验提供了有效的预测信息。NGDTP是一种集成模型,可以充分的利用反例信息,NGBDT会随机的为每一次本文输入的药物和蛋白数据构建多棵决策树(其中,每棵树都是回归树),每颗决策树都会给本文的输入进行打分,最后把所有树的得分累加起来作为最终评分。对该得分由高到低进行排序,就可以预测出与每个药物最有可能有互作关系的蛋白。AEFM是基于编解码器和GBDT的预测方法,关于自动编码器,主要是用于数据的降维以及将多源的信息融合起来。类别不平衡的数据对GBDT的预测影响不大。这对本文最终预测药物和蛋白的互作会有不错的帮助。AEFM模型会通过自动编码器的训练后,将本文的药物、蛋白、疾病的数据融合在了一起,即减少了噪声又使得数据变得更加稠密。接下来把处理好的低维特征矩阵作为GBDT模型的输入,通过GBDT模型对数据进行预测,可以得出某一个药物与某个蛋白之间的互作关系得分,对该得分进行由大到小的排序,可以预测出最有可能与某个药物有互作关系的蛋白。GCAMF是基于图卷积神经网络(GCN)的集成学习模型,对于原始的数据太过于稀疏,为了学习药物节点和蛋白节点在低维空间的特征表示,本文使用了一个基于GCN的自动编码器模型。图卷积网络作为一种图神经网络,可以充分的利用药物网络(或蛋白网络)中节点的属性和拓扑信息来学习节点的低维特征向量。之后,通过一个基于梯度提升决策树的集成学习模型来根据药物-蛋白对的特征向量来预测它们之间存在相互作用的可能性。
其他文献
经过唐、五代的发展,猫题材花鸟画终于在宋代出现一批绘制精良的作品。主要是由于宋代社会经济的发展,宋代猫题材花鸟画作品大多注重写实、造型生动、工致妍丽、神妙入微,极尽构梁之巧,对后世影响深远。猫作为一直以来中国家庭中十分常见的宠物,在宋代花鸟画中同样也是十分重要的动物题材。两宋时期的传世作品大多是佚名,无法追寻具体年代和创作背景,因此也无法探寻宋代猫题材作品的发展脉络,略有遗憾。但依旧可以从创作实践
本文主要通过问卷调查和深度访谈相结合的方法,调查了黑龙江大学2018-2019年两年间的59名汉语教师志愿者的适应情况,目的是研究这一群体的海外适应情况以及存在的困难,并希望通过对其的研究结果,丰富和充实黑龙江大学汉语教师志愿者项目的研究,有效地为今后赴任海外的汉语教师志愿者提供切实参考。本文以调查问卷为基础,并结合3名黑龙江大学2018-2019年汉语教师志愿者的访谈结果,得出这两年间的汉语教师
对外汉语初级综合课是对外汉语课程中的基础课程、核心课程,处于主导地位。综合课教学目标的达成也是其他初级阶段课程教学目标顺利达成的基础,甚至对整个对外汉语教学效果有着直接的影响。本论文以分析对外汉语初级阶段相关理论以及在本文中的应用为基础,以《汉语教程》第二册(上)第九课《快上来吧,要开车了》为例进行了初级综合课的具体教学设计。论文主要运用对比分析法、观察法和个案分析法进行研究。首先在绪论部分分析了
《语言自迩集》是十九世纪中期威妥玛编写的一部汉语教科书,其编写目的是供英国驻中国领事馆的学员打好基础,用最短的时间学会当时的北京官话口语。王洪君教授将其收录于“早期北京话珍本典籍校释与研究”系列丛书,该部教科书针对性强,体例完整,科学实用,研究该部教科书于当今对外汉语教学有重要意义。这部教科书最早于1867年出版,经历1886年再版,1903年删减版。作为百年前的汉语教科书,《语言自迩集》在语言学
研究背景神经内分泌肿瘤(Neuroendocrine Neoplasms,NEN),曾经被称之为类癌(carcinoid),是一组高度异质性肿瘤,起源于肽能神经细胞和神经内分泌细胞,它可以发生在人体的许多器官和组织中,例如胃肠道、胰腺、支气管、肺、乳腺、垂体等,并且不同部位的NEN具有不同的临床特点。NEN最常发生于消化系统,在胃肠道和胰腺神经内分泌肿瘤(Gastroenteropancreati
聚苯胺(PANI)作为重要的导电聚合物之一,因制造成本低、导电性好、稳定性好和可加工性好等优点而在气体传感器领域显示出广阔的应用前景。作为气体传感器而言,纯相聚苯胺传感材料存在着形貌较单一、灵敏度较低、检测下限高等问题。通过提高PANI材料的晶化度和表面活性以及与氧化物复合是解决上述问题的有效途径。然而,目前报道的PANI与氧化物复合材料在进行气敏性能测试时均体现出聚苯胺的响应特性,且灵敏度较低,
缓解教育高压成为多国教育改革之重点。近邻韩国“双减”政策肇始于20世纪70年代,以社会发展诉求、教育内卷严峻、社会负担加重为现实背景,以通过推行“平准化教育”和取缔校外补习机构为主要内容,但终究无力扭转教育高压现状,憾以失败告终。研究认为韩国“双减”政策失败原因为其政治体制框架下多因素综合作用导致的必然,基于教育视角可总结为三点:其一,受古代科举与现代高考影响,立身扬名与考试竞争价值体系根深蒂固;
在本论文中制备了三种半刚性芳香多羧酸配体,分别是:H_3cbca(4?-(1-carboxyethoxy)-[1,1?-biphenyl]-3,5-dicarboxylic acid),Hcmtna(4-(carboxy methoxy)-6-methyl-1-(p-tolyl)-2-naphthoic acid)以及H_2cmna(6-(carboxy methoxy)-2-naphthoic
十八大以来,在国家推进党风廉政建设和反腐败斗争高压形势下,我国反腐败斗争取得里程碑式的进步。面对复杂严峻的反腐败形势,我们一定要认识到,腐败仍然是执政党面临的最大风险。存量仍未清底,增量仍在发生。在深刻把握反腐败斗争新形势下,毫不动摇地查处不收敛不收手的腐败分子,重点关注政治问题和经济问题交织的腐败案件,是我国在过去几年的反腐实践中,得出的宝贵经验。本文从中央纪委监委官方网站上公布的中管干部党纪政
在体育比赛伤害事故案件中,适用自甘风险规则的频率较高,但因我国之前法律尚未明确自甘风险规则,因此在哪些范围可以适用自甘风险,未成年人是否能适用自甘风险,在适用自甘风险的情况下能否再适用公平原则,这些都存在争议。已生效的《民法典》第1176条首次规定了自甘风险规则为独立的抗辩事由,过于原则化,其适用范围“文体活动”应作扩大解释,包括文艺活动、文化娱乐活动、体育活动,其中体育活动包括:极限体育运动、职