论文部分内容阅读
必需基因是生物体生命活动必不可少的基因,识别必需基因对于研究细胞生存的最低环境非常重要,同时也有助于探索生命的起源进化,在药物靶点设计、疾病治疗和生物工程方面有许多实际应用。目前主要采用实验方法测定必需基因,由于其耗时长、耗费大、实验结果不一致等缺点,利用计算方法预测必需基因成为重要的研究工作。近年来,许多计算方法被用来预测必需基因,尤其是基于机器学习的方法。研究人员提出各种与基因必需性有关的特征,其中包括很多高通量实验特征和拓扑特征。但还存在以下两方面的问题:一是预测模型只是针对一种或是某几种生物提出,对其他生物对象可能不适用;二是用于计算预测的各类特征包括诸多实验数据特征,这些特征都不能从序列中得到,而新基因组的实验数据特征一般都是缺失的,因此使计算预测应用范围有限。针对这些问题,本文以目前DEG(Database of Essential Genes)数据库收录的全部细菌生物必需基因作为研究对象,提取了基于序列的特征,特征选择后,用支持向量机和集成学习方法预测必需基因。主要工作如下:(1)用Hurst指数分析33种细菌生物。Hurst指数表示序列的长程相关性,通过对两类样本(必需和非必需基因)的Hurst指数进行统计分析,结果显示33个基因组中有31个基因组的必需基因Hurst指数显著性水平明显高于相应的全基因组,而非必需基因与全基因集相比没有明显差异。Hurst指数在两类样本(必需基因和非必需基因)间存在显著性差异,因此将Hurst指数作为基因必需性描述特征。(2)基因必需性关键特征子集研究。在原始特征集上用Lasso(Least absolute shrinkage and selection operator)算法进行特征选择,并把选择后的特征子集加入到支持向量机分类器来评价特征选择的有效性。设计了三个数据集(31种细菌生物构成的全部数据集、21种革兰氏阴性菌构成的数据集和10种革兰氏阳性菌构成的数据集)进行必需基因预测,在预测效果没有降低的情况下,原始特征分别从57、59和58维分别降低到40、37和38维,结果表明原始特征集中存在冗余性。(3)使用支持向量机预测必需基因。必需基因在全部基因中只是小部分,两类样本分布极不平衡,因此必需基因预测是一个不平衡学习问题。采用加权支持向量机分类器,给不同样本赋予不同的权重值,利用优化的核参数,用4种方法(自检测、交叉验证、留一物种法、跨物种预测)进行训练和预测。(4)使用集成学习预测必需基因。为进一步提高预测效果,从两方面进行改进:一是借鉴集成学习方法,根据两类样本数量,将多数类样本划分为多个数据集,再分别和少数类样本构成新的训练集,训练产生多个支持向量机分类器,通过分类器集成方法得到最终结果;二是分别用四种学习算法,支持向量机、贝叶斯、KNN和Bagging算法,分别训练产生多个分类器,最后将分类器进行集成,得到最终预测结果。