细菌必需基因特征分析及其分类预测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lxg19841130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
必需基因是生物体生命活动必不可少的基因,识别必需基因对于研究细胞生存的最低环境非常重要,同时也有助于探索生命的起源进化,在药物靶点设计、疾病治疗和生物工程方面有许多实际应用。目前主要采用实验方法测定必需基因,由于其耗时长、耗费大、实验结果不一致等缺点,利用计算方法预测必需基因成为重要的研究工作。近年来,许多计算方法被用来预测必需基因,尤其是基于机器学习的方法。研究人员提出各种与基因必需性有关的特征,其中包括很多高通量实验特征和拓扑特征。但还存在以下两方面的问题:一是预测模型只是针对一种或是某几种生物提出,对其他生物对象可能不适用;二是用于计算预测的各类特征包括诸多实验数据特征,这些特征都不能从序列中得到,而新基因组的实验数据特征一般都是缺失的,因此使计算预测应用范围有限。针对这些问题,本文以目前DEG(Database of Essential Genes)数据库收录的全部细菌生物必需基因作为研究对象,提取了基于序列的特征,特征选择后,用支持向量机和集成学习方法预测必需基因。主要工作如下:(1)用Hurst指数分析33种细菌生物。Hurst指数表示序列的长程相关性,通过对两类样本(必需和非必需基因)的Hurst指数进行统计分析,结果显示33个基因组中有31个基因组的必需基因Hurst指数显著性水平明显高于相应的全基因组,而非必需基因与全基因集相比没有明显差异。Hurst指数在两类样本(必需基因和非必需基因)间存在显著性差异,因此将Hurst指数作为基因必需性描述特征。(2)基因必需性关键特征子集研究。在原始特征集上用Lasso(Least absolute shrinkage and selection operator)算法进行特征选择,并把选择后的特征子集加入到支持向量机分类器来评价特征选择的有效性。设计了三个数据集(31种细菌生物构成的全部数据集、21种革兰氏阴性菌构成的数据集和10种革兰氏阳性菌构成的数据集)进行必需基因预测,在预测效果没有降低的情况下,原始特征分别从57、59和58维分别降低到40、37和38维,结果表明原始特征集中存在冗余性。(3)使用支持向量机预测必需基因。必需基因在全部基因中只是小部分,两类样本分布极不平衡,因此必需基因预测是一个不平衡学习问题。采用加权支持向量机分类器,给不同样本赋予不同的权重值,利用优化的核参数,用4种方法(自检测、交叉验证、留一物种法、跨物种预测)进行训练和预测。(4)使用集成学习预测必需基因。为进一步提高预测效果,从两方面进行改进:一是借鉴集成学习方法,根据两类样本数量,将多数类样本划分为多个数据集,再分别和少数类样本构成新的训练集,训练产生多个支持向量机分类器,通过分类器集成方法得到最终结果;二是分别用四种学习算法,支持向量机、贝叶斯、KNN和Bagging算法,分别训练产生多个分类器,最后将分类器进行集成,得到最终预测结果。
其他文献
由于量子信道存在噪声,不可避免地会对输入量子态产生影响,量子编码的目的就是检测和纠正错误的产生。虽然量子纠错编码和经典纠错编码具有很多相似之处,然而量子态的物理特性决
电子对抗是现代战争的重要手段,在现代战场上的作用越来越突出。但是,由于电子对抗的电磁环境十分复杂,武器装备对环境的依赖性比较高,因此实战演习有着明显的局限性。而且实
随着移动互联网和各种实时多媒体业务的发展,如何充分利用有限的频谱资源,提供满足人类物质文化需求的各种通信服务,是未来移动通信技术发展所面临的巨大挑战。正交频分复用(
H.264/AVC是国际电信联盟远程通信标准化组织(ITU-T)的视频编码专家组(VCEG)和国际标准化组织(ISO)的运动图像专家组(MPEG)共同制定的新一代视频编码标准,较其他编码标准有着
在当今信息科技高速发展的浪潮中,计算机技术在人们生活的各个方面都起着举足轻重的作用。在传统的工业控制领域中,软件开发者要多次为硬件开发驱动程序,只要有一个硬件设备,
早搏作为最常见的一种心律紊乱,时常威胁着人们的生命健康,按起源部位的不同,可以分为窦性、房性、房室交接处性和室性四种,其中以房性早搏和室性早搏最常见。不同的病理现象
电子鼻是一种模拟生物嗅觉的仿生技术,与传统的检测方法相比,电子鼻系统具有实时性强、反应快速、性能高效等优点,广泛用于空气质量监测、食品工业、医疗诊断等领域。对气体
伴随着无线宽带通信的深入研究以及我国通信网络基础设施的快速建设,人们已不再满足单一的媒体提供语音及文本通信,迫切需要的是数据、图形、图像、音频和视频等多种媒体信息
近年来,随着计算机、通信以及网络等关键技术的迅速发展,人们对多媒体通信的需求也日益增加,视频通信作为多媒体通信中的一个基本组成部分,得到了广泛的重视。传统的通信系统都是
随着社会经济及人民生活水平的不断快速发展与提高,机动车保有量迅速增长,相应的道路拥堵、交通事故、便捷出行等问题日益突出,成为亟待解决的社会热点问题。由此,作为有效的解决