生物序列比对算法的并行优化设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:likemagicliyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物序列比对是生物信息学的基础和核心,随着生命科学的迅猛发展,需要研究的蛋白质和核酸序列的信息显著增加。常见的双序列比对串行算法时间复杂度为O(N2),多序列比对时间复杂度更高,随着序列长度的增加和比对规模的扩大,时间开销难以接受。在此情况下如果能够挖掘算法的潜在并行性,通过数据划分、流水处理等方式将算法并行化,使其在多个处理器上并行执行,可以大大提升算法效率。本文首先对生物序列比对和并行算法的相关概念进行了介绍。采取流水处理方式,将Needleman-Wunsch算法进行并行化设计。在此基础上提出了多个序列比对算法的并行化方法。通过找到多个checkpoint将矩阵划分若干部分,为每个处理器分配矩阵的一个部分,使各处理器并行执行子矩阵的Hirschberg算法并对完成后的结果进行整合,将Hirschberg算法进行并行化;通过提出使用活动结点和活动结点链表创建后缀树的方法,使按分支并行构建后缀树和按分支获取最大唯一匹配可以并行执行并且摆脱了对后缀链表的依赖,之后并行对锚点间的空位进行合并,将MUMmer算法进行并行化;通过对角线并行方式并行获取和扩展热点区域,采取将距离矩阵进行分块方式使多处理器并行获取不同对角线上热点区域的距离长度,将FASTA算法进行并行化;通过距离矩阵分块方式并行获取序列两两比对的距离长度,以及并行从进化树的叶子向根进行合并的方式,将Clustal W算法进行了并行化。最后对上述4种算法及并行化算法分别进行了实现,将串行算法运行时间与双核及四核条件下并行算法的运行时间进行了比对。实验结果证明了并行化算法比串行化算法速度得到了很大提升,并且得到了不错的加速比,更适用于多核结构。
其他文献
在电喷行业,良好的售后服务系统是产品具有竞争力的重要保证。目前,在国内电喷行业普遍存在售后服务管理不规范化,制约了公司售后服务的顺利开展。本文以电喷行业中有代表性
CAN总线体系结构只包括物理层和数据链路层,在实际应用中需要制定相应的应用层,CANopen协议就是CAN应用层协议标准之一,其诞生于欧洲,广泛应用在汽车电子、医疗设备和航空航天等
自2008年底以来,国际金融危机的加剧,许多工程项目在资金链,客户流等多方面面临了各种各样的问题,夭折、中断、失败的项目越来越多。因此,对工程项目进行有效地管理与评价,已
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新的概念和方法。特别是近几年
信息技术的发展造成了大量数字信息资源的积累,OAI-PMH作为解决大量数字信息资源互操作和共享的一个简单、灵活的协议越来越受到了人们的关注。而目前大多已实现的服务提供者
信息技术的迅猛发展和Internet 技术的广泛应用,大量的分布、异构的信息源应运而生。这些信息源种类繁多、表示和存储形式各异,难以共享,给信息的消费带来很大的困难。为了有效
长流识别对流量工程、网络操作和网络管理都有着重要意义。大量的流测量的研究表明:在各种网络中,流的分布表现出明显的重尾特征,即大多数的流(短流)仅拥有少量的报文,而少数
现代网络的结构日趋复杂,规模快速增长,非法入侵也不断增多。传统的权限管理、防火墙等被动防御技术已力不从心。入侵检测系统作为一种主动的信息安全保障措施,有效地弥补了
随着移动数据业务的普及、手机性能的提高以及数字电视技术和网络的迅速发展, CMMB(China Mobile Multimedia Broadcasting,中国移动多媒体广播)手机电视日益受到人们的青睐
由于空间三角网划分技术的发展,加速了产品数字化的进程,它可以方便,准确,快速,高效的进行物体模型建模,所以广泛的应用于CAD, CAM,逆向工程,地球信息系统,3D动画,虚拟现实(R