基于RNA-seq数据的可变剪接异构体功能预测方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:marinehope
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是构成生命体内细胞和组织的重要成分,其通常由成熟mRNA(可变剪接异构体—isoform)经过翻译后产生。生命体内的绝大多数生命活动都需要蛋白质的参与,因此准确地预测蛋白质的功能能够帮助人类更好地了解生命活动的本质,探索疾病的机理和研究新药物。现有的蛋白质功能预测研究往往都是在基因层面展开的,即预测某个基因具有何种功能。然而单个基因在转录翻译的过程中受可变剪接的影响通常会产生多种不同的蛋白质变种,导致基因层面的功能标注并不能直接对应到每个蛋白质变种上。因此,isoform作为产生蛋白质变种的载体,如何预测isoform功能成为了蛋白质功能预测研究的新方向。然而,isoform层面的数据缺失和其自身真实功能标记的缺失限制了其功能预测研究。高通量转录组测序(RNA-Seq)技术的高速发展与广泛应用产生了大量转录组序列数据,为区分不同isoform提供了高分辨率的数据资源。基于RNA-seq数据的isoform功能预测算法近几年成为研究热点,此类算法都是在RNA-seq数据的基础上,结合已知的基因功能标记和基因-isoform关联关系完成功能预测任务。但是这些方法忽略了基因层面的有益数据,例如基因互相作用数据和基因本体结构数据。此外,现有的isoform功能预测方法还存在两方面的问题待解决:(i)均假设已知的基因功能标记是完整的,但已知的基因功能标记并不完整,存在缺失;(ii)仅将基因功能标记分配至其isoform上,并没有考虑功能标记从isoform到基因的反向聚合。本文针对当前isoform功能预测算法存在的不足,以有效结合基因互作数据和基因本体结构知识数据为抓手,以提升当前isoform功能预测准确率为目标,以多标记多示例学习框架为模型基础,对isoform功能预测问题展开研究,提出两个计算方法。本文的主要贡献包括:(1)针对现有方法仅将基因功能标记单向传递至其isoform和忽视了基因互作数据等问题,本文提出了一种基于异构网络的双随机游走isoform功能预测算法—IsoFun。IsoFun首先基于由多个RNA-seq数据集收集的isoform表达特征数据构建isoform功能关联网络,并将基因的所有功能标记分配给其isoform。然后,IsoFun构建由isoform,基因和GO术语组成的异构网络,以编码基因和isoform之间的从属关系,GO功能术语之间的层次关系和isoform之间的功能关联。这种异构网络可以协同利用基因水平的互作数据,已知的基因GO功能注释以及基因和isoform之间的关系,从而减少不完整单一数据的影响。在此基础上,IsoFun在构建的异构网络上引入了基于双随机游走的标签传播策略预测isoform功能。为了确保基因的已知功能标记被该基因的isoform继承,IsoFun在每次随机游走的迭代中将已知基因功能标记回溯到其最“负责”的isoform上。在人类RNA-seq数据集上的实验结果表明,IsoFun的性能相比现有的isoform功能预测算法的性能有明显提升,通过与自身变种算法的对比,进一步证实了功能标记信息的动态双向传播的优势,基因层面互作数据和基因本体结构数据在isoform功能预测中的辅助作用。此外,在两个isoform功能标记已知的基因ADAM15和BCL2L1的预测结果中,IsoFun能够有效地区分这些基因各自isoform的功能。(2)已知的基因功能标记是不完整的,随着时间的迁移,新的基因功能标记会被加入,但是现有的isoform功能预测算法假设已知的基因功能标记是完整的。针对此问题,本文提出了一种基于协同矩阵分解的isoform功能预测算法—DisoFun。DisoFun假设基因的功能标记是由关键isoform功能标记汇聚获取的。首先,DisoFun对isoform表达特征数据进行聚类分析得到k个关键isoform以及其它isoform与关键isoform的关联关系,再利用isoform与关键isoform的关联将关键isoform的功能标记扩展到全部isoform。其次利用基因与isoform的关联关系将所有isoform的功能标记分别聚合到对应的基因上。在此基础上,整合上述目标,并最大化聚合得到的功能标记与已知的基因功能标记的一致性,将基因功能标记反向推回到关键isoform上,以协调关键isoform的识别和功能预测。鉴于基因相互作用数据和基因本体结构数据在基因功能预测中的重要性,以及基因功能标记的不完整。DisoFun分别利用基因互相作用网络和基因本体层次结构数据构建两个流形正则项来指导基因功能标记的补充,基因-关键isoform关联关系的发现和关键isoform功能标记的预测。实验结果表明,DisoFun相比现有的isoform功能预测方法在预测精度上有着显著的提升,结合基因互相作用网络和基因本体层次性有效地补充了基因和关键isoform的功能标记,进一步提高了isoform功能预测精度。本文还进一步研究了isoform水平功能已知的几个基因(LMNA,BCL2L1和CFLAR),DisoFun能够准确地区分这些基因各自isoform的特有功能。
其他文献
Ghost effect系统模型主要是为了研究稀薄气体中的ghost effect现象,本文主要考虑该系统在临界Besov空间中的适定性,即初值V0∈B2,1d/2,u0∈B2,1d/2-1且div v0=0时,若初值V0充分小,则在空间Ft2,2中存在局部解,若初值V0和u0同时充分小,则在空间Ft2,2中存在整体解.本文结构共分为三个部分.第一章:首先对ghost effect系统的数学表达式
裂缝型储层是油气勘探开发的重点,单裂缝作为实际裂缝的一种简化理论模型,其研究对于理解地震波在单裂缝中的传播规律和响应特征,完善现有的裂缝介质理论模型,以及识别和预测
近年来,隔震技术已在越来越多的工程建筑中使用,美国、欧洲、新西兰等许多国家都对隔震结构的设计方法做出了规定,使隔震结构的设计越来越规范,我国的《建筑抗震设计规范》首
无底柱分段崩落法是我国出现的首个趋于机械化、高强度开采矿石的采矿方法。由于该法在覆盖岩层下进行放矿,矿石损失贫化大、回收效果差的问题非常突出。因此,国内外专家学者对放矿理论、结构参数、覆盖层形成以及出矿工艺等做了大量研究,并取得了丰硕成果。本文从放矿口尺寸着手,进一步研究放矿口尺寸对放矿效果的影响。在矩形放矿口条件下放矿时,高度和宽度的大小会直接影响矿岩的流动,进而影响放矿效果。对此,本文主要做了
青蒿琥酯(Artesunate,ART)是我国自主研发的青蒿素的衍生物成分。与青蒿素相比,其剂型多样,方便服用,比青蒿素具有更高的效价。口服后能够在体内生成二氢青蒿素进而表现出一
建筑结构地震反应观测台阵是了解掌握工程结构在强地震作用下反应形状和破坏发展的直接手段,也是强震动观测工作的重要组成部分。从目前结构地震反应观测台阵布设实例和规范
近年来,热电材料在解决能源问题方面表现出很大的潜力,引起了研究者的普遍关注。但是,热电材料的塞贝克系数、电导率和热导率之间存在耦合制约关系,使得热电性能难以获得进一步提升。本文从具有本征低热导率的热电材料MgAgSb和Cu_2Se入手,通过制备工艺优化和纳米复合等手段,大幅提高了这两种新型热电材料的热学和电学性能,极大地推进了这两种新型热电材料的实用化进展。2014年以来,新型近室温热电材料MgA
目的:通过开展蒙医喷酒按摩疗法对骨折愈合效应的实验研究,进一步探讨其对骨折愈合过程中的作用及影响。方法:新西兰大白兔30只,年龄(10-12个月),体重2.5±0.25kg,雌雄各半,
目前,世界绝大多数国家已经认识到单一货币体系并不适合全球经济的发展,一个多样化的货币体系正逐渐成为新时代国际货币金融体系的必然趋势。经过改革开放40年的发展,中国制造业快速崛起,中国产品在国际市场中具有巨大的竞争力,贸易总量不断再创新高。由于中国融入全球经济程度加深,人民币对世界经济的影响也在逐渐增强。从2009年跨境支付结算系统试行开始,人民币国际化正式开始计价职能的发展,十年来取得了巨大成就。
为了探讨水稻生产中适宜的灌溉方式以及与其匹配的施氮量,以C两优华占为试验材料,进行了氮肥施用量试验与水氮双因素试验。(1)为了研究淹水灌溉下合理的氮肥施用量,首先进行