支持得分矩阵的生物序列匹配系统的设计与优化

来源 :东北大学 | 被引量 : 0次 | 上传用户:naughty009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序技术的发展,人类每天可以获得大量的生物序列数据。生物信息学中的一个重要课题是对序列片段表现出的模式特征进行识别,通过比对和分析,挖掘隐藏在海量序列数据中的生物学信息,帮助解决生物、医疗等领域的难题。位置特异性得分矩阵作为生物序列模式的一种表示形式,在生物序列分析中有着广泛的应用。快速地从生物序列中找到与得分矩阵相匹配的基因片段,成为分析和解读生物序列数据的重要前提与关键技术。目前,广泛使用的生物序列匹配系统在进行得分矩阵匹配时,采用简单的滑动窗口方式计算每个可能位置的片段得分,将满足阈值的片段加入结果集,时间复杂度很高。近些年,有大量的研究工作致力于解决得分矩阵的快速匹配问题,其中大部分都是围绕着为生物序列建立索引进行的。在匹配开始前,为生物序列建立后缀树或者后缀数组索引,使得在匹配得分矩阵的过程中,可以同时略过大量候选位置的计算,大大提高匹配效率。但是由于后缀树或者后缀数组自身的结构特点,会占用大量的内存,严重限制了算法的适用性。本文首先在现有工作的基础上对基于增强后缀数组的ESAsearch算法进行改进,使用迭代的方式逐层对后缀数组进行压缩,提出了内存占用更少的CSAsearch算法,在保持原有算法匹配性能的同时,提升了其对较大生物序列集的处理能力。之后,根据得分矩阵构建查询树,本文将得分矩阵匹配问题转化为字符串匹配问题,提出了基于BWT自索引结构的BWT_M算法。当得分阈值较小时,该算法的匹配效率明显优于已有算法,并且内存占用很小。最后,结合多种优化技术,设计了支持得分矩阵的生物序列匹配系统,并在该系统上运行了大量的实验。通过实验结果本身及对实验结果的分析调整索引结构参数,分析了各个算法在不同影响因素下的匹配性能,同时体现了本系统在匹配效率和内存占用上的优势。
其他文献
叶适的《春秋》观是建立在对释《春秋》各家的批判上的。叶适批评孟子等人拔高《春秋》之地位,亦不满于公羊、榖梁二派的传授方式与解经方式;但叶适极为推崇《左传》,并因杜
黄原胶是由野油菜黄单胞菌经发酵生产的天然胞外杂多糖,具有良好的悬浮性、假塑性和增稠性等特性,在许多领域均具有广泛的应用。本研究采用同源重组技术将透明颤菌血红蛋白基
膜生物反应器(MBR)由于具有出水水质好、设备占地面积小、处理效率高等诸多优点,被广泛应用在污水处理和回用领域,但是膜污染导致的通量衰减、运行成本增加等问题却严重限制了MBR更大规模的应用。通过投加活性炭等吸附材料可改善MBR中混合液特性继而有效延缓膜污染,但现有吸附材料大都为非选择性差,使得吸附效率大大降低,运行和维护成本也相应较高。纳米技术和表面分子印迹技术的发展,使得针对生物大分子的分子印迹
随着经济的高速增长,人类对能源的需求也急剧增加,由此所带来的环境污染、生态破坏等负面问题也日益凸显,因而开发新型能源和新型能源存储设备迫在眉睫。目前在能源存储设备研究中,超级电容器因具有高功率密度、快速充电/放电能力、长循环寿命等优点而受到广泛研究。根据超级电容器的工作原理,电极材料决定电容器的电化学性能,因而制备性能优异的电极材料具有重要意义。导电聚合物作为一种优异的超级电容器电极材料,已得到了
随着社会的进步以及科学技术的发展,在经济全球化这样一个时代背景下,企业所处的外部环境日新月异。21世纪的经济形态是一种不断发展创新的知识型经济形态。一个企业若想要在
近年来,我国股票市场上出现了许多上市公司纷纷变更股票简称的现象。根据传统的金融学理论,排除因主营业务变更、重大资产重组等原因所导致的简称变更情况,股票简称变更作为
首先介绍了Morrey-Herz空间、变指数Morrey空间、变指数Herz空间的基本定义及相关的一些性质,以及分数次积分算子及其交换子的概念.然后利用各函数空间的特征,基于在Lebesgue
《流沙》(Quicksand)和《越界》(Passing)是美国哈莱姆文艺复兴时期著名黑人女性作家内拉·拉森(NellaLarsen)的两部代表作。本文从身份构建理论切入,探讨拉森小说中黑白混血
大王庄油田留70断块经过40余年的勘探开发,其地质储量采出程度仅为13.5%,表现出油层动用程度差、采油速度低、挖潜难度大。在开发过程中发现目的层位砂体的空间展布特征及砂体叠置关系认识不清是制约油田开采低效的主要因素,因此开展研究区沉积相、沉积微相研究以及砂体接触关系的评价对油田后续制定调整开发方案具有现实意义。本次研究以高分辨率层序地层学研究为指导,在地层对比过程中兼顾考虑砂体叠置、侧向沉积相变
随着经济发展和技术提升、旅游业的兴起,出现越来越多的大跨人行桥。其结构跨度大且刚度低,人致振动较为明显,人桥相互作用比较突出,因此对其进行深入研究有较大意义。同时,人群的行走是十分复杂的,每个行人都会对周围的环境进行判断,并且做出反应。基于Monte-Carlo方法,从微观方面进行人群移动研究,会更接近实际情况。本文主要进行了以下工作:(1)对比移动力模型和质量-弹簧-阻尼模型的特点,分别推导出两