DNA序列中串联重复体查找算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:pptcwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在DNA序列分析中,串联重复体查找是一个重要的基础性问题。人类DNA序列50%以上是由串联重复体组成的。串联重复体在基因表达、调控和遗传等方面起着十分重要的作用,同时它是产生多种疾病的病因。另外以串联重复体为基础的“DNA指纹技术”在法医学等领域广泛应用。因此关于串联重复的研究具有十分重要的意义。本文主要研究串联重复体查找算法。1)针对精确串联重复体提出了一种基于LZ分解查找串联重复体的算法。对于存储在后缀树上的字符串S,该算法能在线性的时间找到所有出现在S中的串联重复体。为了进一步提高算法的效率,我们对后缀树进行了改进,给中间节点加入了叶子信息数组,这样就避免了算法对子树的遍历。2)引入了一种新类型的近似串联重复体—进化串联重复体,由于以前提出的算法都不能解决进化串联重复体的查找问题,因此提出了基于海明距离的查找算法。对于给定的重复单元的长度l,该算法的时间复杂度为O(ln2),解决了进化串联重复体的查找问题。为了说明算法的正确性和有效性,本文将这两种分别应用于实际的基因组DNA序列,结果表明基于LZ分解的查找串联重复体方法能找到更多的串联重复体,基于海明距离的查找方法则解决了进化串联重复体的查找问题。
其他文献
P2P网络作为一种革命性的技术,在战场信息网络中发挥着重大作用。如何在海量战场信息中快速有效地找到符合用户需要的资源,为用户提供实时、可靠、准确的信息服务,实现真正意
数据挖掘近年来获得了越来越多的广泛关注。对大型的、复杂的、信息丰富的数据集进行处理是所有机构组织、企业、政府部门的共同需求。Hadoop提出一个非常有效和实用的工具为
本论文首先对数据仓库的概念、相关理论、设计过程、现有多维数据模型以及ETL(数据抽取、转换和装载)、OLAP:联机分析处理)相关概念进行分析研究,以社区电子服务为背景,对利安
随着移动信息技术的迅猛发展和手机、平板电脑等手持移动设备的普及,数字家庭已成为国内外研究的热点。人们迫切地希望能够实现随时随地的让不同种类的电子设备之间实现互联互
随着计算网格技术的发展,越来越多的资源加入到网格平台中,同时越来越多的应用需要网格平台服务,因此需要开发出能支持不同类型任务提交和管理的Portal门户并设计出相应的网格调
为了改造和利用遗产系统,一类做法是对遗产系统的底层模块进行封装,甚至对遗产系统的源代码进行再开发。这类白盒式的改造方法不仅需要深入研究遗产系统的具体实现,而且需要
近几十年来,随着机器学习、数据挖掘领域的不断发展,基于其理论的自然语言处理也取得了长足的进步,目前各大门户网站搜索引擎均推出了自己的机器翻译系统,因此作为机器翻译的先导
LDPC码因具有逼近Shannon限的优越性能和低的译码复杂度而受到研究者的普遍关注,逐渐成为目前最具前景的纠错编码技术之一。二部图的构造是LDPC码设计中一个非常重要的问题,
数据中心在电信运营中地位日益重要,3GPP TR 32.808提出的统一数据库框架(CPSF)是数据中心建设的一个方向。统一数据库要求支持多种访问接口,其中包括通过XML方式访问LDAP数
本文研究和讨论的软件安全检查工具可以在程序的编译阶段对其进行安全分析,尽可能全面地检查出程序存在的安全漏洞,从而避免这些漏洞在程序的运行阶段造成更严重的问题。软件