论文部分内容阅读
本文是基于Chou-Fasman法则的计算原理,通过对Fasman法则计算公式的分析,并且对当初Chou-Fasman计算得到的结果进行了重新计算和优化,得到了新的蛋白质二级结构倾向性因子值,同时从另一方面证明了Chou-Fasman法则的正确性。
文章使用的数据均来源于PDB(蛋白质二级结构数据库)数据库,二级结构分类数据库选择的是SCOP数据库,二级结构定义数据库选择的是DSSP(蛋白质二级结构定义数据库)数据库,。经过自己开发的软件将从网上下载得到的数据库进行一定的转换,为本课题提供服务,主要数据库最终分为两种:1,DSSP非冗余数据库,其目的在于减少冗余度对本课题计算结果造成的误差的影响;2,DSSP随机数据库,本数据库做为计算结果的验证集,目的在于验证计算从非冗余数据库中计算得到的结果。
由于没有现成的能满足本课题需要的数据库数据挖掘和数据分析处理软件,因此在完成本课题之前需要自己设计开发一款软件作为课题的硬件支持。本课题选用的是Delphi7开发平台,开发了课题专门的数据处理软件。
文章对长度为4的多肽模型进行了数据挖掘和分析处理,发现在这种模型出现的螺旋和非螺旋结构中,呈现出一种趋势:当中间2,3位位点的螺旋倾向性因子值高于某个值时,和低于某个值时,这种模型将出现不同的二级结构,即:当中间位点的氨基酸残基的Fasman倾向性均值大于1时,这种模型大多呈现螺旋结构,比例高达80%左右,当倾向性均值小于1时,这种模型很少呈现螺旋结构,比例高达70%-80%。我们通过不同的数据库,验证了这种推论,最终得到了本论文的结论。
本课题侧重于生物信息学中蛋白质二级结构预测部分,课题的创新点在于使用了自己开发的DSSP数据库分析软件,提出了一种新的四肽模型理论,得到的结论将有利于提高蛋白质二级结构中的螺旋结构预测的准确率。