论文部分内容阅读
机器学习在生物信息学中的应用越来越广泛,它对我们探索生命起源、生物进化以及细胞病变起到了巨大的推进作用。相比较传统的生物化学实验方法,机器学习的方法成本低,耗时短,在启动子的预测以及RNA修饰位点的预测等方面都取得了重大突破。近年来,集成学习受到越来越多的人的关注,它是通过一定的规则将多个学习器组合起来获得更好的学习效果的一种机器学习方法。本文针对集成学习在生物信息学中的应用进行了深入的研究,主要研究内容如下:(1)在原核生物的转录中,σ54启动子发挥着重要的作用。为了快速、准确地预测出原核生物中的σ54启动子,本文以集成学习思想为核心,采用支持向量机(support vector machine,SVM)作为基学习器,自主设计了SVM-AdaBoost算法,并在此方法的基础上构建了SVM-AdaBoost预测模型:http://112.74.38.96:8080/SVMAdaboost,在严格交叉验证下其准确率达到了96.06%,明显比现有的预测模型iPro54-PseKNC的准确率要高。(2)RNA修饰在生命体中普遍存在并且发挥着重要的作用,准确识别并预测出这些RNA修饰的发生位点对于人类探究其生物学功能和机制有着极其重要的意义。为了应对能够实现用一种方法更准确地识别几种不同类型的RNA修饰位点这一挑战,本文提出了一种融合位置特异性单核苷酸及双核苷酸偏好特征的k-元组核苷酸组成(pseudo k-tuple nucleotide composition,PseKNC)编码方式,构建了一个基于XGBoost(eXtreme gradient boosting,XGBoost)集成算法的RNA修饰位点的预测模型。我们采用了交叉验证的方法对最终的预测模型进行了测试,测试结果表明其预测准确率比现有的预测模型要高。这些研究成果对于探索人类基因奥秘、疾病的发生和治疗具有重要的意义。