论文部分内容阅读
后基因组时代的到来,生物信息学的研究重心日益从基因组测序工作转移到对已测序基因组的功能进行注释。传统的基于同源性的注释方法由于自身存在的缺陷在精确度方面已经不能满足人们的需要。非同源性的功能注释方法渐渐受到人们的重视。有别于同源性方法中对基因或蛋白质间相似性的考虑,非同源性方法则是根据基因或蛋白质之间的进化上的相关性来预测它们之间的功能关联。在众多非同源性方法中,系统发育谱方法是应用得最为广泛的一种,同时也是最具研究价值的一种。
系统发育谱方法最早是由Pellegrini等人于1999年提出的。该方法从刚一提出就引起人们的广泛关注。在此后的几年时间里,众多研究学者对这种方法做出了不同程度的改进。这些改进包括了系统发育谱的三个步骤,即参照基因组的选择、系统发育谱的构建以及谱的相似性分析。尽管如此,该方法到目前为止还有许多不足之处,如参照基因组的选取还没有一定的标准,对相似谱的聚类也还没有有效地利用现有的经典聚类算法。针对这些不足,对系统发育谱算法提出了两点改进:一是为构造基于权重的系统发育谱,从而间接减少了对于参照基因组选择的过分依赖;二是在对构造好的发育谱进行相似性分析时,结合使用两种应用最为广泛的经典聚类算法——层次聚类算法和K均值聚类算法。通过两种方法的取长补短来达到更好的聚类效果。