论文部分内容阅读
真核基因剪接位点识别问题是生物信息学中的重要问题之一。基因剪接尤其是前体 mRNA 的剪接是基因表达的一个重要途径,它影响着基因的构成,直接决定着蛋白质的选择与合成,也因此间接决定了生物体的性状和机体的功能。本文基于计算机技术和智能计算方法对人类基因供体位点序列特征及其位点识别问题进行了尝试性的研究,取得的主要研究成果如下: 1)本文建立了人类基因供体剪接位点数据库,并对其中的数据进行词频统计,分析了供体位点序列的特征及其特征碱基之间的互动关系。研究发现供体位点两侧的特征碱基的出现具有一定的规律性,当一侧的特征碱基缺失时,另一侧的特征碱基的出现概率则会大幅增加,反之亦然; 2)本文研究基因剪接位点识别的生物信息学方法,选用 BP 神经网络建模,对外显子和内含子与基因供体剪接的关系进行了分析。研究发现剪接位点区别于伪剪接位点的特征信息同时存在于剪接位点两侧一定范围内的外显子和内含子中,这可以大致的定量为 50 个碱基,且内含子相对于外显子包含了更多的特征信息; 3)本文提出了一种仅依靠特征碱基 motif 来识别供体剪接位点的算法,这种方法对正样本的识别率达到 83%以上,对负样本的识别率达到 90%以上,有力的证明了特征碱基对于基因剪接位点识别的作用。但所参考的考虑所有真实位点邻近碱基的 motif 方法对正样本的识别率可以达到90%以上,这也说明非特征碱基对于基因剪接具有一定的影响; 4)本文建立了基于学习矢量量化(LVQ)神经网络的供体剪接位点的识别模型,研究其用于剪接位点识别的效果及可行性,并对 LVQ 的两种训练算法LVQ1 和 LVQ2.1 下的识别效果进行了比较。实验证明这种方法能够用于基因剪接位点的识别。其中,LVQ1 对正样本的识别优于 BP 神经网络,LVQ2.1 对负样本的识别优于 BP 网络。 本课题得到了国家自然科学基金的支持。项目名称为-复杂系统意义下的生物信息学中若干问题研究。