【摘 要】
:
生物信息学是一门综合利用生物学、计算机科学、数学等学科知识的新兴交叉学科,其主要任务是揭示海量生物学数据中蕴含的生物学意义、探索生命活动的奥秘。全基因组DNA序列拼
论文部分内容阅读
生物信息学是一门综合利用生物学、计算机科学、数学等学科知识的新兴交叉学科,其主要任务是揭示海量生物学数据中蕴含的生物学意义、探索生命活动的奥秘。全基因组DNA序列拼接是生物信息学研究的重要课题。在大规模DNA测序中普遍使用的Shotgun方法中,片段序列的拼接是一个关键而又费时的过程,其中包含了一些实际困难,重复子序列对片段间正确重叠的干扰就是其中一个。如何提高序列拼接的精度和速度是本课题研究的重点。
本文在深入分析现有拼接算法及其实现软件的基础上,针对分布式并行计算环境,提出了优化的DNA序列拼接并行算法P Assembler,分别对序列拼接中的Overlap、Layout和Consensus阶段的串行处理过程和并行算法进行了探讨,通过分析数据集的划分方法和串行处理过程的可并行性,提出了多种不同的并行处理策略并加以比较与分析,理论和实验结果都验证了并行处理后序列拼接算法效率大大提高。除此之外,论文针对DNA序列拼接中比较棘手的重复序列问题,提出了一种改进的基于k-mer子串的重复序列识别方法KmerRepeat,实验结果表明:和已有聚类和ARACHNE分析方法相比,具有更高的精确性,也在一定程度上提高了序列拼接效率。
论文对算法的实现及其拼接软件的测试结果也作了深入的分析,实验结果表明算法是可行的且高效的。
其他文献
随着语义Web领域的发展,各个领域按照语义Web的数据格式发布的数据逐年呈几何级爆炸性增长。Linked Open Data上的RDF数据条数已经达到百亿级规模。针对RDF数据主要有查询和
随着公交系统的快速发展,对车载视频监控系统提出了更高的要求。而Linux系统的发展壮大,Web技术和分布式技术等的日渐成熟为车载视频监控系统的进一步发展提供了技术支撑。本
身份认证技术是计算机网络安全中的一个重要环节,是网络安全和信息系统安全的第一道关卡,也是实施访问控制的基础,对系统信息只能被合法授权用户访问和获取起着重要作用。实
MPLS(多协议标签交换)作为ATM与IP结合的产物继承了IP技术的灵活性,可扩展性,同时利用现有的二层硬件交换技术(如ATM,FR等)提供了对流量管理和VPN(虚拟专用网)的支持,具有QoS
随着互联网技术的发展,电子邮件在人们生活中扮演着越来越重要的角色。但电子邮件给人们带来极大便利的同时,也日益显示出其负面影响,那就是随之而来的各种或推销广告或包含不良
本文以某冶炼铸造厂ERP(企业资源规划)系统的实际开发与应用为研究课题,根据系统运行过程中出现的问题和当前物料管理的需求,从业务功能和程序设计两个方面,对该厂原有物料管理
终身学习、异质化学习的新观念兴起了自主学习、非学历教学的热潮,而日益进步的远程教学通信技术带来了极其丰富的共享课程资源和现场感强的远程实时教学模式。由此引出了学习
Web服务技术为跨网络应用集成及构建复杂的业务流程提供了最佳实践,但基于XML的服务描述缺乏相应的语义信息,而当前的关于语义Web服务的研究大多集中于服务的功能性接口语义
容灾备份对于重要系统具有不可替代的重要性。目前的容灾系统大多采用诸如NAS,SAN这样的存储备份技术,NAS技术仅适合于本地存储,不适于远距离异地备份,而SAN的备份距离仅为几
本文在研究了传统的LEACH协议的基础上,通过利用粒子群算法对LEACH协议中的网络分簇阶段进行改进,将网络分簇的过程移到汇聚节点上进行,采用粒子群算法不断的迭代将网络分成规模