基于深度多示例学习的可变剪接异构体相互作用预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:wuyan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质对于调节和执行细胞的生命活动具有重要作用。只有少数的蛋白质独立发挥作用,大多数蛋白质通常通过与其它蛋白质或分子相互作用发挥其功能。构建和分析大规模蛋白质相互作用网络不仅有助于理解生物分子相互作用机制,还是探索蛋白质功能的一种重要手段。尽管目前在蛋白质-蛋白质相互作用研究方面已经取得了重大进展,但现有的研究仍停留在基因水平上。蛋白质相互作用中已知的“蛋白质”通常被认为是基因通过可变剪接产生的最长/常见的蛋白质,而忽略了可变剪接的影响。可变剪接是基因表达调控的一种非常常见的机制。它使得基因通过多种选择剪接机制产生一个或多个不同的可变剪接异构体,最终翻译形成不同的蛋白质亚型。可变剪接可以通过改变蛋白质结构域的组成直接或间接影响蛋白质之间相互作用的结构域的结合,进而改变蛋白质-蛋白质相互作用。全面地研究可变剪接异构体相互作用网络对于深入理解生物分子网络、探索蛋白质功能至关重要。传统的基因层面的分子网络构建方法并不能直接用于构建可变剪接异构体层面的相互作用网络,主要原因有:1)大多数传统的基因层面的数据并不能够直接提供可变剪接异构体层面的特征;2)缺乏大量的具有相互作用可变剪接异构体对作为“金标准”来构建和评估模型。近年来,RNA-Seq等技术的发展提供了多种类型的可变剪接异构体层面的数据,使得通过融合多种类型的数据来预测可变剪接异构体层面的相互作用成为可能。本文以有效整合多源数据,提高可变剪接异构体相互作用预测精度为目标,设计了一种深度多示例学习框架对可变剪接异构体相互作用预测展开研究。本文的主要工作如下:(1)由于缺乏试验验证的可变剪接异构体层面的相互作用数据,现有的一些研究方法只考虑了一个基因产生一种可变剪接异构体的情况。针对以上问题,本文提出了一种基于深度多示例学习的可变剪接异构体相互作用预测方法(DMIL-Ⅲ)。DMIL-Ⅲ综合考虑了基因产生一个和多个可变剪接异构体的情况,并将可变剪接异构体相互作用预测问题建模为多示例学习问题。在多示例学习框架中,一对基因被看作为一个“包”,分别来自两个基因的不同的可变剪接异构体对被视为“包”内不同的“示例”。另外,本文融合了RNA-Seq、核苷酸序列、结构域-结构域相互作用以及外显子芯片等多种不同类型的生物学数据来描述不同的可变剪接异构体对。DMIL-Ⅲ模型以包含所有可变剪接异构体对特征的基因“包”的数据作为输入,利用卷积神经网络来捕捉“包”内的每一对可变剪接异构体对之间的复杂特征。然后,通过提取的特征计算得到每一对可变剪接异构体的相互作用概率值。由于缺乏可变剪接异构体相互作用数据,DMIL-Ⅲ采用多示例学习思想将可变剪接异构体对的预测值映射到基因对上进行训练和评估。实验结果表明,与现有的可变剪接异构体相互作用预测方法相比,DMIL-Ⅲ通过融合多种不同类型的数据,并利用深度卷积神经网络提取关键特征能够显著提高可变剪接异构体相互作用预测的准确率。(2)基于多示例学习的可变剪接异构体相互作用预测问题中,通常选取基因层面的相互作用数据作为“金标准”来构建和评估模型。在“金标准”数据集中,相互作用的基因对可以从现有的数据库中获得,而不具有相互作用的基因对一般通过不同的亚细胞定位产生。通常,具有相互作用的基因对的数量远小于不具有相互作用的基因对的数量,进而导致了基因层面的类别不平衡。现有的可变剪接异构体相互作用预测研究中都没有考虑类别不平衡问题。针对以上不足,本文提出了一种基于不平衡深度多示例学习的可变剪接异构体相互作用预测研究方法(IDMILIII)。IDMIL-Ⅲ同样将可变剪接异构体相互作用预测问题建模为多示例学习问题,并整合了RNA-Seq、核苷酸序列、氨基酸序列以及外显子芯片数据来描述不同可变剪接异构体对的特征。首先,IDMIL-Ⅲ模型采用卷积神经网络来提取来自同一个基因“包”的不同可变剪接异构体对的特征表示。同时,IDMIL-Ⅲ模型引入了注意力机制来计算每一对可变剪接异构体的权重。通过计算每一对可变剪接异构体的特征表示与注意力权重的逐元素乘积,可以得到一张具有注意力机制的特征图。然后,IDMIL-Ⅲ采用卷积层对得到的具有注意力的特征图进行特征提取,并计算每一对可变剪接异构体相互作用的概率值。接着,IDMIL-Ⅲ采用多示例学习思想将可变剪接异构体层面的预测映射到基因层面。考虑到基因层面的类别不平衡问题,本文提出了一种新的函数来减少多数类样本对模型训练的影响。实验结果表明,IDMIL-Ⅲ在不平衡数据集上具有良好的分类效果;同时,引入注意力机制对于提高可变剪接异构体相互作用预测准确率是有效的。
其他文献
语文学科自身的特殊性、时代发展对人才培养提出的新要求、高中生思维水平和学习水平的发展特性以及高中语文阅读教学发展的困境共同催生了思辨性阅读教学。作为必修七大任务群之一,“思辨性阅读与表达”与语文学科核心素养之间有着密不可分的关系,对语文阅读教学变革、学生成长以及教师发展具有重大意义。本文旨在通过对高中语文学科核心素养与思辨性阅读教学的相关理论概念及研究现状整合辨析的基础上,探索在思辨性阅读教学课堂
人口空间化是将基于行政单元的人口更准确的展布于地域空间中,能更充分的展示人口空间分布信息,对施行人口精细化管理,协调人口与资源、环境、发展之间的矛盾具有重要意义。青藏高原是世界屋脊,掌握青藏高原人口分布信息有助于完善全球人口分布特征,如人类居住生活的最高海拔。其次,青藏高原与缅甸、印度、不丹、尼泊尔等多个国家接壤,其地理位置具有重要的战略意义,习近平总书记也曾多次强调“治国必治边,治边先稳藏”,稳
近年来随着互联网技术和存储设备性能的提升,各类复杂系统衍生出大量的数据。其中很大一部分数据是以时间为刻度计量的,按照时间的先后顺序将观测值记录下来的有序序列称为时间序列。对以时间为变量的序列进行分析,获取其所包含的数据特性,根据数据特性以及历史数据之间的变化规律构建数学模型,并将其外推到下一时刻预测未来时刻或者一段时间的观测值。在现有的研究中,时间序列预测已经成功应用在不同的领域,如:通信工程、股
作曲在西方音乐教育中是一门开设历史悠久,理论丰富,教学系统完备的学科。在我国作曲专业的开设可追溯自上个世纪20年代,辛亥革命后,以民主与科学为标志发起了新文化运动,使民主革命斗争和文化建设跨入新阶段。音乐教育事业在这一时期得到发展,并成立了以北大附设音乐传习所、国立音乐院为代表的专业音乐教育学院.其中国立音乐院是最早建立作曲系的专业音乐学院,在成立初期便引入欧洲音乐学院作曲专业设置模式与课程安排,
课堂教学是我国所有教学形式中最为通用的形式。学生在课堂中的学习状态对于学生的课堂学习以及教师的授课过程都有影响,它既是影响学生学习质量的主要因素,又是反映教师教学质量的重要依据。在传统的课堂教学中,教师要在授课的同时关注全部学生的学习状态,这对经验不足的新教师来说无疑是一个较大的考验。同时,教学管理者要对教师的教学质量进行评价,也只能通过人工深入课堂的方式来观察学生的上课情况以及教师的授课情况,这
土壤矿物表面静电性质直接影响了矿物间的相互作用力,进而强烈地影响着土壤胶体凝聚以及土壤团聚体的形成、稳定或分散,控制着水分运动、水土流失以及农业面源污染等一系列宏观现象的发生。原子力显微镜(Atomic Force Microscopy,AFM)作为一种力学测量仪器在土壤矿物间作用力的测定中应用广泛,基于AFM测定得到的探针与矿物间相互作用力,用Derjaguin-Landau-Verwey-Ov
在教学中,学生学习的核心知识是利用教科书来展现的,另外教师实施教学活动也是基于教科书而进行的,学生基础知识的学习与拓展均建立在教材基础之上,因此,教材编写的合理与否在一定程度影响着学生的学习效果和教师的教学质量。随着教育的不断发展,课程的改革,全国同一本教材的局面被打破,这也使得同一学科有不同版本的教材,同时教育主体对教科书领域的研发力度也在不断提升。英语作为重要学科之一,教材研究同样备受关注。教
场馆学习作为非正式学习的典型代表,受到了国家、各级教育机构、广大学生、家长和教师的推崇和支持。在场馆学习中,学生能够拥有更丰富的学习资源和开放的学习环境,能够与实地、实物进一步的交流和融合,提升了学生的社会化能力,也极大程度的弥补了学校教育的不足。因此,近年来场馆学习受到了国内外研究者们的青睐,相关研究也逐步丰富起来。本研究聚焦于小学生这一群体,通过质性研究和量化研究相结合的方式,旨在形成一个较为
压电陶瓷是现代社会中一种不可或缺的重要功能材料,利用其电能和机械能相互转换的性质而被广泛应用于医疗、电子和军工等现代高科技领域。而目前主流压电陶瓷为铅基陶瓷,其毒性对环境和人类社会不利,因此无铅化是压电陶瓷发展的必定趋势。无铅压电陶瓷中铌酸钾钠基((K,Na)NbO3)陶瓷由于其优秀的压电性能等优势,在环境友好型材料中受到巨大关注,也是压电陶瓷领域一大研究热门。为了将(K,Na)NbO3基陶瓷的压
家庭暴力不仅是一个现代问题,古已有之。但是对于家庭暴力的认知,古今差异较大。在今人看来,家庭成员之间的身体侵害行为很大程度上构成了家庭暴力的实质内容,而在古代社会,家庭暴力在很大程度上属于可以容忍的,只有超过容忍程度的才被时人视为家庭暴力。家庭暴力的发生无疑会给家庭关系蒙上阴影,而家庭是社会的重要细胞,这样一来,家庭暴力对社会也会造成深刻的影响。宋代时值中国古代重要社会转型期,即唐宋变革时期,由唐