基于后缀树的序列比对算法的设计与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:mcl8023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多序列比对是两个以上DNA序列、RNA序列或蛋白质序列的比对。多序列比对是基因组分析和蛋白质组分析的最常用手段之一,能有效发掘多个序列中的相似性信息。作为其他算法的基础,多序列比对软件必须具备快速比对数以十亿计的高度相似序列的能力,才能满足其他序列分析工具对性能和吞吐量的需求。目前的大多数相关软件并不能解决这一问题。本文从算法改进和并行加速两个方面进行深入研究,使用更高效的基于后缀树的多序列比对算法和并行加速技术提升算法的性能,使用Spark分布式框架解决程序对吞吐量的要求。具体工作如下:1.设计并实现了基于后缀树的双序列比算法,该算法是对传统的动态规划算法的改进。针对高度相似序列的特殊性质,该算法利用了后缀树强大的字符串处理能力加速双序列比对过程,通过一次查找序列,找出两序列中所有相互匹配的片段,大幅度减少使用动态规划算法比对片段的长度,降低了算法的时间复杂度。2.以中心星比对策略和基于后缀树的双序列比对算法为基础,设计基于后缀树的多序列比对算法MASC。中心星比对策略是一种高性能的多序列比对策略,但其预处理过程耗时过长。针对该问题,我们提出在比对同源序列时,随机选择中心序列不会造成精度损失。实验结果表明,MASC可以在线性时间完成同源序列的比对并且不会产生精度损失。3.在Spark平台上设计实现基于后缀树的多序列比对软件MASC-Spark。通过规划和调度RDD,最大化地发挥Spark框架的并行计算能力,进一步加速比对过程。在并行加速下,MASC-Spark的计算速度和吞吐量进一步提升。实验表明,该程序具有较好的加速比和可扩展性。
其他文献
目的:通过观察加减无比薯蓣丸治疗气阴两虚型非增殖期糖尿病视网膜病变(non-proliferative diabetic retinopathy,NPDR)患者的临床疗效,为临床用药提供参考。材料与方法:收集
第一部分、被动型Heymann肾炎大鼠足细胞损伤程度与NEAT1表达水平关系目的:通过制备被动型Heymann肾炎大鼠模型探索大鼠足细胞损伤程度与NEAT1表达水平关系。方法:雄性SD大鼠
近年来,石油天然气能源的意义和地位日益提升,与之相关的科学研究如火如荼。地震波场模拟作为地震勘探研究的一环,其重要性日益凸显,尤其在逆时偏移和全波形反演等方面,对地震波场数值模拟的精度有了更高的要求,模拟精度直接关系到这些反演处理方法的成像效果。基于有限差分的地震波场数值模拟是常用的波场模拟方法,被广泛应用于各类地下介质的研究。本文介绍了有限差分法的原理、实现方法和误差分析。同时,针对波场模拟无边
目的:ER低表达(ER阳性1%~9%)对内分泌治疗应答目前尚不清楚,在临床上是否应用内分泌治疗也存争议。本研究比较ER阴性、ER阳性1%~9%及ER阳性≥10%乳腺癌患者临床病理特征及预后,
当前,我国社会朝多元化的趋势高速发展,由政府包揽一切公共事务的管理方式越来越难以适应形势的发展。政府由对公共事务的管理转变为治理,公共领域事务由政府单一主体参与转
随着化石能源危机日益严重,热电材料越来越受到人们的广泛关注。Mg2X(X=Si,Ge,Sn)及其固溶体属于一种环境友好的中温(400800 K)热电材料,具有原料丰富、价格便宜、环境污染小和密度低等优点。虽然n型Mg2X热电材料的ZT值已经达到1.3左右,但是p型Mg2X热电材料的ZT值仍然不足1。因此,提高p型Mg2X材料热电性能成为Mg2X体系的研究重点之一。首先,采用两步固相法、球磨和热压合
炔类化合物在有机化学,药物化学以及生物化学领域非常常见,是很多药物与重要天然产物的重要结构单元。末端炔烃类化合物作为有机化合物的基础组成部分,可以进行广泛的衍生和拓展。而炔丙基类化合物是许多天然产物,合成药物以及精细化学品的常见基元,也是有机合成与药物合成中具有重要意义的合成中间体。铜钛共催化的5H-噁唑啉酮的炔丙基化反应可以用以合成具有手性中心的三级醇类化合物并保留末端炔烃,可用于进一步的修饰与
研究背景和目的人类免疫缺陷病毒(Human immunodeficiency virus,HIV)是一种单链RNA病毒,能够引起人类获得性免疫缺陷综合征(Acquired immunodeficiency syndrome,AIDS),导致机体免疫功能的逐渐缺失而缺乏对外界病原体的抵抗,最终导致多种机会性病原体的共感染从而产生多重临床症状直至死亡。HIV基因进化速率较高,很容易产生新的流行株和耐药
富林洼陷是渤海湾盆地济阳坳陷沾化凹陷的一个次级构造单元,本论文在前人基础上,以沉积地质学、测井地质学、岩相古地理学、地球物理学理论为指导,利用测井、录井、地震反演资料对该研究区的沉积充填和砂体展布特征进行研究。取得了如下成果认识:1.在对富林洼陷区域地质背景研究基础上,通过井震标定,建立钻井与地层剖面相结合的区域地层格架。在单井地层划分、井震标定、连井地层对比基础上,编制了各组断裂体系展布图、各组
大数据时代,海量数据中蕴藏着潜在的、具有重大价值的信息与指示,亟待研究开发有效的数据分析方法对其进行高效利用。数据的存储方式多种多样,其中关系型数据是最为普遍的存