高效的motif识别方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:PYY7896321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录因子结合位点预测问题,即在DNA序列中发现允许出现变异的motif的问题,不论对于分子生物学还是对于计算生物学,都是一项非常重要的研究。基于一致序列表达的模式发现算法,典型的如使用后缀树来存储DNA序列,当通过深度优先遍历后缀树来匹配模式时,有许多方法可以用来提升算法速度,例如记录不匹配字符数或使用一些基于统计概率的模型来抛弃一些路径。但是目前这些算法的复杂度依然很高,一些算法转而使用空间复杂度较高的结构来加速匹配过程,效果虽有提高,但仍然无法完全满足现实需求。为了解决这一问题,本文提出了一个数据结构以及与之对应的两个算法,通过充分利用匹配过程中产生的中间结果,从而在保持精确性且空间耗费很小的情况下大大提高进程的效率。在本文提出的算法中,同样使用后缀树来存储DNA序列。然而,本文提出了一个匹配路径集合栈数据结构来记录中间匹配结果,称之为SUTMAPST结构,以便具有公共前缀的不同模式匹配过程共享公共前缀的匹配结果信息。使用匹配路径集合栈,匹配过程可以层次式遍历与回溯从而避免了大量的重复匹配操作,能够有效的支持基于后缀树的模式发现算法。本文提出了SUTMAPSTA算法,可以很好的解决植入d-Motif问题(Planted d-Motif Problem)从而验证SUTMAPST数据结构的有效性。另外,本文使用SUTMAPST数据结构结合Weeder的剪枝思想提出WSUTMAPSTA算法。WSUTMAPSTA算法与Weeder算法相比在不降低准确性的情况下,大幅提升了算法效率。实验结果和分析证明使用SUTMAPST结构的SUTMAPSTA算法与WSUTMAPSTA算法比现有算法更快,并且空间开销很小。
其他文献
代码自动生成(Automatic Code Generation),顾名思义,是指用手工编写的生成工具来自动生成代码。具体说就是通过生成工具读取某种形式的抽象定义文档,生成可编译的代码。  
现代导航计算机要求系统具有效率高、成本低、功耗小、接口丰富等特点,并且符合高精度、高稳定性和实时性的要求。基于现代导航计算机的上述特点和要求,本文设计了一个以Xili
随着校园网络的逐渐发展,其规模越来越大,应用也日益繁多,然而目前校园网中的应用软件多数是基于Internet设计研发的,这些软件并没有很好的利用校园网络环境的特殊性,一些针
基于虚拟人进行通信是一个相当有趣的课题,吸引了诸如计算机科学、人工智能及心理学等学科的学者的注意,并且有广泛的应用前景。目前,大部分虚拟人动画系统或是通过视觉/语音
关联规则挖掘是数据挖掘领域中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一.要发现关联规则,首先需要挖掘频繁项集,而Tire这种
在某些特定的应用环境中,由于位置偏远等原因,需要采用无线远程监控技术,本论文提出基于Windows CE的嵌入式技术和现有GPRS网络资源实现远程监控的方案。该方案是结合了嵌入
随着计算机网络和多媒体技术的发展,图像的应用日益广泛,基于内容的图像检索技术(Content-Based Image Retrieval,CBIR)应运而生,并成为图像领域研究的热点。而目前的CBIR技术还
随着计算机应用的普及以及软件产业的飞速发展,人们对于高质量软件的要求越来越高,软件测试作为提高软件质量的重要手段之一,是软件开发过程中必不可少的环节,而且通常会占用50%-7
当前,越来越多的应用场景中使用到了虚拟化技术。虚拟化技术中,应用负载被封装在虚拟机中,包括CPU,内存在内的物理资源被抽象为一个资源池。通过虚拟机的迁移技术,虚拟机可以资源
随着计算机技术的迅速发展,各类数据信息爆炸式的增长。计算机的计算和存储能力也在日新月异,如何从繁杂的数据中提取有用的信息,以帮助分析和决策,得到越来越多的重视。数据