基于深度学习的农作物基因剪接位点识别研究

来源 :山东农业大学 | 被引量 : 0次 | 上传用户:bianyitijie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
准确的识别基因剪接位点对于理解以及控制基因性状的表达具有十分重要的意义。本文基于拟南芥、水稻、玉米三类农作物基因剪接位点数据集,结合卷积神经网络与递归神经网络设计了一种深度学习网络模型DeepAS(CNN+GRU+LSTM)。并根据DeepAS模型开发了农作物基因剪接位点识别系统,目的是能够实现快速准确的识别农作物基因剪接位点,从而方便研究者的使用,加快科研工作的效率。主要研究内容如下:1、基于拟南芥、水稻、玉米三种原始农作物的基因数据提取基因剪接位点数据集,并分别制作基因剪接位点模型训练集。2、基于Tensorflow+Keras深度学习框架提出了一种农作物基因剪接位点识别模型,设计了51种不同的模型结构用于训练并测试三种农作物基因剪接位点数据集以及他们的混合数据集,挑选出在每种数据集上识别准确率最高的网络模型,命名为DeepAS,并保存其模型与权重。实验表明DeepAS网络模型在用于识别农作物基因剪接位点时具有很好的准确率与泛化能力,在农作物混合基因数据集上识别准确率为97.09%,精确率为96.88%,召回率为0.9692,F1_Score为96.90%,结果优于传统的机器学习模型与本文对比的其他研究者的深度学习模型。3、进一步对剪接位点序列的特征进行研究,使用特殊的非剪接位点数据集进行验证,在去除GT-AG法则这一主要特征的情况下,识别的准确率依旧保持在96%以上,这证明了学习到的特征不只是GT-AG法则,而是综合复杂的,在另一方面也证明了DeepAS模型具有很好的稳定性与泛化能力。此外,在二分类模型基础上设计了可以识别受体剪接位点、供体剪接位点、非剪接位点的三分类模型,并且在混合三种农作物的基因剪接位点数据集上进行了测试,准确率为85.91%,填补了三分类识别问题的空缺。4、基于设计的DeepAS模型开发了农作物基因剪接位点识别系统,系统可以根据用户选择的不同数据匹配相应的模型,在输入或上传数据并提交后可以实时反馈识别结果,系统网址为http://www.deepbiology.cn/DeepAS/。
其他文献
研究目的:通过对等长收缩诱发局部肌肉疲劳及其恢复过程中的sEMG信号和动作反应时特征进行分析,评估疲劳对反应时和肌肉激活特征的影响及其恢复规律,为运动训练和康复实践提
随着国内市场经济的繁荣发展,各行业市场领域竞争加剧,国内啤酒市场竞争达到了白热化阶段,国内大型啤酒厂商占据了主要地位,国外啤酒企业也看准了中国啤酒市场的规模和前景,纷纷进入中国啤酒市场进行布局。由于中国的特殊国情,还有很多区域的啤酒市场被地方啤酒企业垄断。在中国的啤酒市场中,HR啤酒长期占据销量排行榜的首位,HR啤酒集团是专门从事啤酒制造的全国性企业。不过虽然HR雪花啤酒的销量在国内遥遥领先,但是
随着云计算技术的发展,云平台作为其核心应用也渗透到各行各业中得到广泛的应用。云平台基于虚拟化等技术对底层的软硬件资源进行管理和调度,并为用户提供了多种类型的服务,
文章通过介绍BT模式中的实践操作来谈谈投资公司在项目实施中进行项目管理的体会和相关要点,以期为以后相关项目施工管理提供借鉴。
泛摆线齿轮是以短幅外摆线的等距曲线为齿廓曲线的一种摆线齿轮,具有滑动率低,传动平稳等优点,适合大速比、大功率、结构尺寸小的齿轮传动。目前对泛摆线齿轮的研究主要集中
高血压病是中老年常见病,据1991年全国高血压抽样调查,60岁以上的老年人中高血压病(≥140/90 mmHg,1mmHg=0.133 kPa)的患病率达40.4%(男性38.5%,女性42.1%)[1],本病晚期常引起
BT模式以及代建制在进行工程项目的建设中均存在各自的优点以及缺陷,本文对BT模式以及代建制在进行工程项目的建设中存在的优点以及缺陷进行分析,并分析BT模式以及代建制模式