论文部分内容阅读
伴随着计算机和网络技术的不断发展,人类正式进入到大数据时代,与其他所有学科一样,计算机科学技术对生物学也产生了不可估量的影响。伴随着后基因组时代的来临,蛋白质测序技术飞速发展,这就造成了蛋白质序列的数据呈现爆炸式的增长。然而相较于蛋白质的一级序列,蛋白质的结构和功能信息对于人类有着更加重要的作用,对于这些信息的不断认知极大地促进了生物学、生命科学以及制药工程等领域的快速发展。因此无数研究者们致力于构建蛋白质的空间结构并且判断蛋白质的功能。早期基于生物学的方法因其极大的时间成本和经济成本已经不能完全满足发展的需求,因此,生物信息学应运而生。研究者们开始通过计算机方法预测蛋白质的结构及功能,并在这个领域取得了喜人的成果。众所周知,蛋白质在机体中并不是孤立存在的,它需要通过与其他粒子之间的相互作用来实现特定的功能,这种与蛋白质相互作用的粒子我们统称为配体。而核苷酸作为一类重要的配体有其与众不同的特点。显而易见的,了解蛋白-核苷酸相互作用机制对于进一步了解此类蛋白质的功能起到重要的作用,因此,判断蛋白-核苷酸相互作用位点成为了近年来非常热门的研究课题。KNN是一种古老而实用的分类器,它具有较高的鲁棒性和稳定性,被广泛应用于机器学习和数据挖掘领域,它的基本思想是从众多训练样本中找到与待测样本“最接近”的K个样本,并通过这些样本的类别分布确定待测样本的分类结果。在生物学中,目前的研究证明了越相似的蛋白质序列越有可能具有相似的结构和功能。因此,KNN这种朴实又直观的方法在蛋白-核苷酸结合位点预测方面取得了相当具有竞争力的结果。然而,KNN算法也存在相当严重的缺点,即在样本分布并不均匀的情况下其预测性能明显下降。而蛋白-核苷酸结合位点的数据有着非常严重的样本倾斜问题,正负样本数量相差极大。根据这个问题,本文提出了一种P.A-KNN算法,P.A-KNN利用改进的AdaBoost算法对训练集进行欠采样,形成N个弱训练集,再利用改进的KNN算法分别在每个弱训练集上构造N个弱分类器,再将这些弱分类器集成成为一个强分类器,并形成最后的预测结果。实验结果表明,P.A-KNN相较于原始的KNN算法在准确率和MCC指标上都取得了非常显著的提高。并且在人为加入噪声数据的情况下,我们的算法有效降低了噪声数据对分类结果的不良影响。在与目前较好的几种算法比较中,我们的P.A-KNN在准确率和MCC两项评价指标上均有所提高。大量而规范的测试验证了我们的方法有效地提高了蛋白-核苷酸结合位点的预测。本文总共分为四章,主要内容安排如下:第一章:介绍蛋白-核苷酸结合的生物学背景,并介绍目前国内外研究现状;第二章:介绍本文选取的数据集及特征空间;第三章:提出P.A-KNN算法的方法;第四章:针对P.A-KNN算法进行测试。