论文部分内容阅读
准确的识别基因剪接位点对于理解以及控制基因性状的表达具有十分重要的意义。本文基于拟南芥、水稻、玉米三类农作物基因剪接位点数据集,结合卷积神经网络与递归神经网络设计了一种深度学习网络模型DeepAS(CNN+GRU+LSTM)。并根据DeepAS模型开发了农作物基因剪接位点识别系统,目的是能够实现快速准确的识别农作物基因剪接位点,从而方便研究者的使用,加快科研工作的效率。主要研究内容如下:1、基于拟南芥、水稻、玉米三种原始农作物的基因数据提取基因剪接位点数据集,并分别制作基因剪接位点模型训练集。2、基于Tensorflow+Keras深度学习框架提出了一种农作物基因剪接位点识别模型,设计了51种不同的模型结构用于训练并测试三种农作物基因剪接位点数据集以及他们的混合数据集,挑选出在每种数据集上识别准确率最高的网络模型,命名为DeepAS,并保存其模型与权重。实验表明DeepAS网络模型在用于识别农作物基因剪接位点时具有很好的准确率与泛化能力,在农作物混合基因数据集上识别准确率为97.09%,精确率为96.88%,召回率为0.9692,F1_Score为96.90%,结果优于传统的机器学习模型与本文对比的其他研究者的深度学习模型。3、进一步对剪接位点序列的特征进行研究,使用特殊的非剪接位点数据集进行验证,在去除GT-AG法则这一主要特征的情况下,识别的准确率依旧保持在96%以上,这证明了学习到的特征不只是GT-AG法则,而是综合复杂的,在另一方面也证明了DeepAS模型具有很好的稳定性与泛化能力。此外,在二分类模型基础上设计了可以识别受体剪接位点、供体剪接位点、非剪接位点的三分类模型,并且在混合三种农作物的基因剪接位点数据集上进行了测试,准确率为85.91%,填补了三分类识别问题的空缺。4、基于设计的DeepAS模型开发了农作物基因剪接位点识别系统,系统可以根据用户选择的不同数据匹配相应的模型,在输入或上传数据并提交后可以实时反馈识别结果,系统网址为http://www.deepbiology.cn/DeepAS/。