利用改进的AdaBoost与KNN算法预测蛋白—核苷酸结合位点

来源 :吉林大学 | 被引量 : 0次 | 上传用户:hero_1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机和网络技术的不断发展,人类正式进入到大数据时代,与其他所有学科一样,计算机科学技术对生物学也产生了不可估量的影响。伴随着后基因组时代的来临,蛋白质测序技术飞速发展,这就造成了蛋白质序列的数据呈现爆炸式的增长。然而相较于蛋白质的一级序列,蛋白质的结构和功能信息对于人类有着更加重要的作用,对于这些信息的不断认知极大地促进了生物学、生命科学以及制药工程等领域的快速发展。因此无数研究者们致力于构建蛋白质的空间结构并且判断蛋白质的功能。早期基于生物学的方法因其极大的时间成本和经济成本已经不能完全满足发展的需求,因此,生物信息学应运而生。研究者们开始通过计算机方法预测蛋白质的结构及功能,并在这个领域取得了喜人的成果。众所周知,蛋白质在机体中并不是孤立存在的,它需要通过与其他粒子之间的相互作用来实现特定的功能,这种与蛋白质相互作用的粒子我们统称为配体。而核苷酸作为一类重要的配体有其与众不同的特点。显而易见的,了解蛋白-核苷酸相互作用机制对于进一步了解此类蛋白质的功能起到重要的作用,因此,判断蛋白-核苷酸相互作用位点成为了近年来非常热门的研究课题。KNN是一种古老而实用的分类器,它具有较高的鲁棒性和稳定性,被广泛应用于机器学习和数据挖掘领域,它的基本思想是从众多训练样本中找到与待测样本“最接近”的K个样本,并通过这些样本的类别分布确定待测样本的分类结果。在生物学中,目前的研究证明了越相似的蛋白质序列越有可能具有相似的结构和功能。因此,KNN这种朴实又直观的方法在蛋白-核苷酸结合位点预测方面取得了相当具有竞争力的结果。然而,KNN算法也存在相当严重的缺点,即在样本分布并不均匀的情况下其预测性能明显下降。而蛋白-核苷酸结合位点的数据有着非常严重的样本倾斜问题,正负样本数量相差极大。根据这个问题,本文提出了一种P.A-KNN算法,P.A-KNN利用改进的AdaBoost算法对训练集进行欠采样,形成N个弱训练集,再利用改进的KNN算法分别在每个弱训练集上构造N个弱分类器,再将这些弱分类器集成成为一个强分类器,并形成最后的预测结果。实验结果表明,P.A-KNN相较于原始的KNN算法在准确率和MCC指标上都取得了非常显著的提高。并且在人为加入噪声数据的情况下,我们的算法有效降低了噪声数据对分类结果的不良影响。在与目前较好的几种算法比较中,我们的P.A-KNN在准确率和MCC两项评价指标上均有所提高。大量而规范的测试验证了我们的方法有效地提高了蛋白-核苷酸结合位点的预测。本文总共分为四章,主要内容安排如下:第一章:介绍蛋白-核苷酸结合的生物学背景,并介绍目前国内外研究现状;第二章:介绍本文选取的数据集及特征空间;第三章:提出P.A-KNN算法的方法;第四章:针对P.A-KNN算法进行测试。
其他文献
<正>9月12日,中铁六局北京公司先后组织人员购买了月饼、水果、鸡蛋、牛肉和调和油等物品分发给职工和施工队伍,让大家感受到家的温暖,过一个舒心的节日。项目部中秋施工不停
失血性休克是由大量失血引起的临床重症,其特点表现为机体有效循环血量不足、组织灌流不足从而导致多器官功能障碍甚至死亡。平时和战时失血性休克的发生率及死亡率很高。目
作为一国经济的核心增长极,超大型城市的产业创新升级至为关键。如何从更高阶产业中持续获取递增收益,以平衡同步攀升的异质性人口集聚成本,并弥补"创造性破坏"带来的传统产
在众多奢侈品中,钟表具有其独特的气质。精巧的指针滴滴答答、日夜旋转,看似简单,背后却是一部精密复杂、分毫不差的仪器。瑞士一份商业杂志近期推出该国钟表富豪榜,人们得以
[目的]探讨ERCP+EST取石术治疗胆总管结石并发急性胰腺炎的危险因素,为临床降低胰腺炎的发病率提供理论依据。[方法]对昆明医科大学第二附属医院肝胆胰外科一病区自2014年1月
目的探讨急性创伤性休克患者血清RAS系统中血管紧张素Ⅱ(AngⅡ)、Ang(1-7)、血管紧张素转换酶(AC E)、AC E2水平变化情况及与病情演变的相关性。方法自2015年3月至2016年6月
为维护表彰与奖励工作的严肃性、权威性,确保表彰与奖励真正起到维护纪律、激励官兵的作用,落实依法治军的治军方略,四总部应当制定军事规章对《纪律条令》关于军队的奖励工
目的:使用显微CT观察不同牙体修复材料用于Ⅱ类洞充填修复时材料与龈壁的适合性。方法:选择人离体前磨牙18颗,制备邻牙合面Ⅱ类洞,随机分为6组进行分层充填。使用6种材料作为
从理论课到实验课,从课内实践、课外实践到评价体系,本文对广播电视编导专业学生技能的培养进行了系统的探究。从五个方面可以有效加强学生技能的培养:调整课程结构,加大实践
本文依托某冲孔灌注桩工程质量事故实例,开展现场调查、资料分析及试验研究。综合地质条件、设计、施工、现场试验及相关规范等多方面资料,利用端承摩擦桩竖向抗压承载力荷载