论文部分内容阅读
蛋白质是构成生命体内细胞和组织的重要成分,其通常由成熟mRNA(可变剪接异构体—isoform)经过翻译后产生。生命体内的绝大多数生命活动都需要蛋白质的参与,因此准确地预测蛋白质的功能能够帮助人类更好地了解生命活动的本质,探索疾病的机理和研究新药物。现有的蛋白质功能预测研究往往都是在基因层面展开的,即预测某个基因具有何种功能。然而单个基因在转录翻译的过程中受可变剪接的影响通常会产生多种不同的蛋白质变种,导致基因层面的功能标注并不能直接对应到每个蛋白质变种上。因此,isoform作为产生蛋白质变种的载体,如何预测isoform功能成为了蛋白质功能预测研究的新方向。然而,isoform层面的数据缺失和其自身真实功能标记的缺失限制了其功能预测研究。高通量转录组测序(RNA-Seq)技术的高速发展与广泛应用产生了大量转录组序列数据,为区分不同isoform提供了高分辨率的数据资源。基于RNA-seq数据的isoform功能预测算法近几年成为研究热点,此类算法都是在RNA-seq数据的基础上,结合已知的基因功能标记和基因-isoform关联关系完成功能预测任务。但是这些方法忽略了基因层面的有益数据,例如基因互相作用数据和基因本体结构数据。此外,现有的isoform功能预测方法还存在两方面的问题待解决:(i)均假设已知的基因功能标记是完整的,但已知的基因功能标记并不完整,存在缺失;(ii)仅将基因功能标记分配至其isoform上,并没有考虑功能标记从isoform到基因的反向聚合。本文针对当前isoform功能预测算法存在的不足,以有效结合基因互作数据和基因本体结构知识数据为抓手,以提升当前isoform功能预测准确率为目标,以多标记多示例学习框架为模型基础,对isoform功能预测问题展开研究,提出两个计算方法。本文的主要贡献包括:(1)针对现有方法仅将基因功能标记单向传递至其isoform和忽视了基因互作数据等问题,本文提出了一种基于异构网络的双随机游走isoform功能预测算法—IsoFun。IsoFun首先基于由多个RNA-seq数据集收集的isoform表达特征数据构建isoform功能关联网络,并将基因的所有功能标记分配给其isoform。然后,IsoFun构建由isoform,基因和GO术语组成的异构网络,以编码基因和isoform之间的从属关系,GO功能术语之间的层次关系和isoform之间的功能关联。这种异构网络可以协同利用基因水平的互作数据,已知的基因GO功能注释以及基因和isoform之间的关系,从而减少不完整单一数据的影响。在此基础上,IsoFun在构建的异构网络上引入了基于双随机游走的标签传播策略预测isoform功能。为了确保基因的已知功能标记被该基因的isoform继承,IsoFun在每次随机游走的迭代中将已知基因功能标记回溯到其最“负责”的isoform上。在人类RNA-seq数据集上的实验结果表明,IsoFun的性能相比现有的isoform功能预测算法的性能有明显提升,通过与自身变种算法的对比,进一步证实了功能标记信息的动态双向传播的优势,基因层面互作数据和基因本体结构数据在isoform功能预测中的辅助作用。此外,在两个isoform功能标记已知的基因ADAM15和BCL2L1的预测结果中,IsoFun能够有效地区分这些基因各自isoform的功能。(2)已知的基因功能标记是不完整的,随着时间的迁移,新的基因功能标记会被加入,但是现有的isoform功能预测算法假设已知的基因功能标记是完整的。针对此问题,本文提出了一种基于协同矩阵分解的isoform功能预测算法—DisoFun。DisoFun假设基因的功能标记是由关键isoform功能标记汇聚获取的。首先,DisoFun对isoform表达特征数据进行聚类分析得到k个关键isoform以及其它isoform与关键isoform的关联关系,再利用isoform与关键isoform的关联将关键isoform的功能标记扩展到全部isoform。其次利用基因与isoform的关联关系将所有isoform的功能标记分别聚合到对应的基因上。在此基础上,整合上述目标,并最大化聚合得到的功能标记与已知的基因功能标记的一致性,将基因功能标记反向推回到关键isoform上,以协调关键isoform的识别和功能预测。鉴于基因相互作用数据和基因本体结构数据在基因功能预测中的重要性,以及基因功能标记的不完整。DisoFun分别利用基因互相作用网络和基因本体层次结构数据构建两个流形正则项来指导基因功能标记的补充,基因-关键isoform关联关系的发现和关键isoform功能标记的预测。实验结果表明,DisoFun相比现有的isoform功能预测方法在预测精度上有着显著的提升,结合基因互相作用网络和基因本体层次性有效地补充了基因和关键isoform的功能标记,进一步提高了isoform功能预测精度。本文还进一步研究了isoform水平功能已知的几个基因(LMNA,BCL2L1和CFLAR),DisoFun能够准确地区分这些基因各自isoform的特有功能。