基因序列中Tandem Repeats查找方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:huanzhonga
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是近年来新兴的一门综合性的交叉学科。它综合利用计算机科学、信息科学和数理统计学,对大量的生物序列进行存储、检索、分析和利用。生物信息学中的一个重要研究方向就是tandemrepeat查找。 由于Tandemrepeat在基因组成和进化中起到非常重要的作用,因此Tandemrepeat查找问题已经成为当前生物信息学的一个前沿领域和研究焦点。目前在这一研究领域存在多类解决方法,主要有基于LZ分解技术的tandemrepeat查找方法,和最近兴起的基于后缀树索引的tandemrepeat查找方法。本文选取了两种时间复杂度达到O(nlogn+z)数量级的代表性的方法,对这两种方法进行了全面的综述,并对它们的性能进行了系统的比较和分析。 同时,tandemrepeat查找领域也不断的出现新的亟待解决的问题,如最近提出的最大tandemrepeats查找问题,由于最大tandemrepeats信息含量高,在字符串中的数量少等特点,使得这个问题从出现起就引起了研究人员的广泛兴趣。鉴于目前尚没有可用的最大tandemrepeats查找算法,在上面两种算法比较结果的基础上,选择了性能优先的基于后缀树的tandemrepeat查找算法,对它的理论体系进行了合理的扩展,并基于这些扩展理论实现了最大tandemrepeats查找算法。 最后对最大tandemrepeats查找算法进行了正确性验证和性能试验分析,结果表明,该算法能准确地找到所有的最大tandemrepeats,并且它的性能相对于基于后缀树的tandemrepeat查找算法有了很大提高。
其他文献
随着信息技术的飞速发展,Agent技术成为人工智能领域的研究热点之一。Agent具有一定的智能及良好的灵活性,特别适合于对复杂、分布和难以预测问题的处理。MAS与协调一组自治Age
随着国际互联网的兴起,一方面带来了资源的极大丰富,另一方面则使网络连接的性能和可靠性下降了,使得以局域网为基础的RPC技术明显缺乏个性化和灵活性,无法适应这一状况。因
学位
计算机产业已经发展到了所谓的后PC时代,信息家电、机顶盒等各种新的名词越来越为人们所熟悉,对嵌入式系统的研究开发已成了计算机领域的一个热点。随着嵌入式系统的广泛应用
本课题基于SBML 和BioSPI 的基础,分两步来完成:1.首先研究SBML 和BioSPI 对系统生物建模的不同点和相同点,SBML 从知识表示和共享的角度处理生物系统现象,适合于数据存储和交换,但
流量工程是为解决网络规模发展引起的网络资源不足及网络拥塞问题而产生的,然而当前基于覆盖模型的流量工程技术存在管理复杂性、难以扩展等局限,需要以一种新的技术来取代其
信息和知识成为了当今社会经济领域中最重要的资源,知识管理作为一种崭新的以信息和知识为核心的管理模式应运而生。当前,越来越多的机构通过知识管理来塑造自身的核心竞争力。
本文通过研究数据挖掘算法,来寻求一种能够用于商品销售量的预测技术.人工神经网络是一个比较新的研究领域,而且能够解决非线性问题,并有广泛的适用性,所以本文选用人工神经
软件测试是当今计算机科学与工程中起着至关重要作用的领域之一。近年来,面向对象技术的广泛应用和CASE工具的发展,已经大大减轻了软件设计和编码的困难,而使得软件测试变得
随着电子技术、通信技术和计算机技术的充分发展,科学家们开始越来越多地将电子信息技术应用到交通系统以提高交通运输的效率和安全性,并最终形成了一个专门的领域—“智能交通