论文部分内容阅读
随着人类基因组及模式生物基因组大规模测序的顺利实施,GenBank,EMBL和DDBJ国际三大核酸序列数据库的序列数量和碱基个数呈指数增长,同时国际上著名的蛋白质数据库如PIR,SWISS-PROT和PDB等中的蛋白质数目与DNA序列同步,也呈指数增长.如何分析这些数据,从中获得生物结构、功能等的相关信息是基因组研究取得成果的决定性步骤.该论文主要致力于真核生物基因的蛋白质编码区识别和冠状病毒基因组多聚蛋白酶切位点的识别.论文第一部分介绍了生物信息学发展的背景和主要研究内容,真核生物基因组的特点以及真核基因识别算法的发展状况.论文第二部分是围绕人类基因的短编码区识别问题展开的.在Z曲线理论的基础上,考虑密码子内部相邻碱基之间的近程相关性,将Z曲线参数进一步发展,得到Z曲线方法的n变量,这里n=9,21,21,45,69,69,93,189.基于建立的数据库和标准评价指数,对包括马尔科夫模型在内的19种算法进行评价发现,69参数和189参数Z曲线方法在19种算法中识别准确率最高.此外,与目前国际上广泛使用的马尔科夫模型相比,Z曲线方法参数数目少,计算简单.论文第三部分主要致力于冠状病毒多聚蛋白酶切位点的预测.基于传统的权重矩阵方法,充分考虑3C-like和papain-like蛋白酶剪切位点及剪切产物的保守性,开发出了预测冠状病毒多聚蛋白酶切位点的程序ZCURVE_CoV 2.0(http:∥tubic.tju.edu.cn/sars/).类比3C-like蛋白酶的剪切模式,观察papain-like蛋白酶剪切产物的注释情况,提出了一个新的papain-like蛋白酶剪切模型,对NCBI的注释情况进行了修正和补充.论文第四部分主要是建立真核生物蛋白质亚细胞位置序列集.利用SWISS-PROT蛋白质序列数据库资源(版本号40,数据库共105,322条蛋白质记录,于2002年2月23日建立索引)建立了真核生物亚细胞位置序列集,为开发真核生物蛋白质亚细胞预测算法提供了相关基础,另外,对处于多亚细胞位置蛋白质的各种情况给予了较详细的分析.