论文部分内容阅读
RNA修饰是发生在生物体中将初级转录RNA转化为成熟RNA的加工过程,是基因调控领域的重要组成部分。同时该修饰作为转录后水平的调控方式,参与多种重要的生物学过程。迄今为止,已有超过150种RNA的转录后修饰在生命领域被发现。RNA修饰可以影响RNA剪接、RNA降解、蛋白质翻译和人体免疫调节等生物活动,在生物体的调节中起着不可或缺的作用。因此,对于已测得RNA基因修饰数据研究其修饰类型,有助于为科学家解释和发现RNA表观修饰调控提供新思路,更好地理解其分子机制和功能。虽然物理化学实验和基于高通量测序技术的RNA修饰位点识别方法一定程度上促进了RNA修饰研究的进展,并对RNA修饰的鉴定和生物功能的认识起到了积极的推动作用,但是完全通过生物实验以确定RNA修饰位点和类型不仅耗时且成本较高。因此,随着高分辨率实验数据的积累和大量计算模型的出现,使用生物信息学的方法对RNA序列信息进行分析预测和确定RNA修饰位点和类型是非常迫切和必要的,并且很快变成表观遗传领域的研究热点和前沿问题之一。近年来,已经有多个RNA修饰位点预测工具被发布。但是这些预测工具大部分都依靠于研究人员的先验知识,利用RNA修饰的单一或者多个特征构建预测模型,如何有效的选择特征对预测精度的提高带来了极大的挑战。此外一些预测方法只关注单一物种的单一类型或多种类型的RNA修饰位点,并且对小样本RNA修饰类型无法进行预测,导致相关研究人员缺乏真实有效的工具使用,因此这一研究领域仍然值得关注和深入探索,进行创新和改进。目前,深度学习算法在许多领域取得重大性的进展和突破,代表性的模型有长短期记忆网络。与标准的前馈神经网络不同,该方法使用人工循环神经网络架构,处理整个数据序列,挖掘出原始数据的潜在信息,并自行对相关特征进行选择和组合,这极大地避免了人工选择特征的主观性,因此依托深度学习算法改善和提高RNA修饰位点和类型的实验性能具有良好的应用和研究前景。鉴于此,本文利用深度学习框架和RNA序列信息构建RNA修饰位点和类型预测模型,是一种新式的多物种多类别RNA修饰位点预测器。该工具基于双向门控循环单元(BGRU)和迁移学习,充分利用多种RNA修饰位点数据及特征的相互关联,为不同类型的RNA修饰位点构建预测模型。为了有效训练和评估模型性能,本文的方法进行十折交叉验证并使用独立测试集,我们还与多种深度学习模型进行了对比,同时还与之前发布的3种可使用的RNA修饰位点预测工具进行对比。实验结果显示,本文的模型不仅比之前提出的预测工具相比具有更好的性能,而且能较为准确地对多物种多类别的RNA修饰位点进行预测。此外该模型的预测结果和性能也证明了在该研究领域具有发展潜力。