基于集成学习的σ54启动子及RNA修饰位点的预测

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:weiqiangting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习在生物信息学中的应用越来越广泛,它对我们探索生命起源、生物进化以及细胞病变起到了巨大的推进作用。相比较传统的生物化学实验方法,机器学习的方法成本低,耗时短,在启动子的预测以及RNA修饰位点的预测等方面都取得了重大突破。近年来,集成学习受到越来越多的人的关注,它是通过一定的规则将多个学习器组合起来获得更好的学习效果的一种机器学习方法。本文针对集成学习在生物信息学中的应用进行了深入的研究,主要研究内容如下:(1)在原核生物的转录中,σ54启动子发挥着重要的作用。为了快速、准确地预测出原核生物中的σ54启动子,本文以集成学习思想为核心,采用支持向量机(support vector machine,SVM)作为基学习器,自主设计了SVM-AdaBoost算法,并在此方法的基础上构建了SVM-AdaBoost预测模型:http://112.74.38.96:8080/SVMAdaboost,在严格交叉验证下其准确率达到了96.06%,明显比现有的预测模型iPro54-PseKNC的准确率要高。(2)RNA修饰在生命体中普遍存在并且发挥着重要的作用,准确识别并预测出这些RNA修饰的发生位点对于人类探究其生物学功能和机制有着极其重要的意义。为了应对能够实现用一种方法更准确地识别几种不同类型的RNA修饰位点这一挑战,本文提出了一种融合位置特异性单核苷酸及双核苷酸偏好特征的k-元组核苷酸组成(pseudo k-tuple nucleotide composition,PseKNC)编码方式,构建了一个基于XGBoost(eXtreme gradient boosting,XGBoost)集成算法的RNA修饰位点的预测模型。我们采用了交叉验证的方法对最终的预测模型进行了测试,测试结果表明其预测准确率比现有的预测模型要高。这些研究成果对于探索人类基因奥秘、疾病的发生和治疗具有重要的意义。
其他文献
20世纪30年代,中国外交通史出现了由实践上升到理论层面的可贵探索,万仲文就是其中代表者之一。他借鉴国外先进研究成果,从“外交本体”的角度确证了外交史研究的学术意义。并以
考察出土文献中的“木”“牒”“人”三个量词。其一,“木”是汉语中最早用于称量木本植物的专门量词,它的出现标志着先秦汉语称量“有生”事物的量词语义系统的雏形初步形成。
近四十年来,作为国家经济发展中的重要支柱型产业,我国的汽车行业得到了有目共睹的长足发展。我国也成为全球最大汽车制造国和全球最大的汽车消费市场。随着我国经济改革的不断深入,经济发展也逐步从高速增长型经济向高质量发展型经济转型。这一阶段我国的经济呈现出了“稳中有变、变中有忧”的新特点。但同时也面临复杂而严峻的外部因素的影响。受国家政策和宏观经济的影响,中国汽车市场结束二十八年来持续增长的势头,2018
生物信息学是一门由生命科学、数学和计算机科学相互渗透形成的新型交叉学科,其发展迅速、应用性强,已成为生命科学研究者强有力的辅助工具。生物信息学课程在农业院校相关专业
近些年来,企业并购、资产重组活动正处于“井喷期”,为有效刺激资本市场的良性运作,对赌协议作为一种风险管理工具应运而生。对赌协议是达成并购或融资协议时,对于未来不确定