论文部分内容阅读
生物信息学是近年来新兴的一门综合性的交叉学科。它综合利用计算机科学、信息科学和数理统计学,对大量的生物序列进行存储、检索、分析和利用。生物信息学中的一个重要研究方向就是tandemrepeat查找。
由于Tandemrepeat在基因组成和进化中起到非常重要的作用,因此Tandemrepeat查找问题已经成为当前生物信息学的一个前沿领域和研究焦点。目前在这一研究领域存在多类解决方法,主要有基于LZ分解技术的tandemrepeat查找方法,和最近兴起的基于后缀树索引的tandemrepeat查找方法。本文选取了两种时间复杂度达到O(nlogn+z)数量级的代表性的方法,对这两种方法进行了全面的综述,并对它们的性能进行了系统的比较和分析。
同时,tandemrepeat查找领域也不断的出现新的亟待解决的问题,如最近提出的最大tandemrepeats查找问题,由于最大tandemrepeats信息含量高,在字符串中的数量少等特点,使得这个问题从出现起就引起了研究人员的广泛兴趣。鉴于目前尚没有可用的最大tandemrepeats查找算法,在上面两种算法比较结果的基础上,选择了性能优先的基于后缀树的tandemrepeat查找算法,对它的理论体系进行了合理的扩展,并基于这些扩展理论实现了最大tandemrepeats查找算法。
最后对最大tandemrepeats查找算法进行了正确性验证和性能试验分析,结果表明,该算法能准确地找到所有的最大tandemrepeats,并且它的性能相对于基于后缀树的tandemrepeat查找算法有了很大提高。