DNA序列比对并行算法研究及应用

被引量 : 0次 | 上传用户:yangmingmind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学(Bioinformatics),指的是利用信息技术和计算机科学等方法,以研究大量而复杂的生物数据的一门交叉学科。目前,基因组学中的DNA排序问题的研究是生物信息学的重要研究领域之一。研究DNA序列的基本途径是序列比对,它通过序列的排列规律寻找序列间的相似性和同源性,从而分析研究生物的遗传进化信息。近年来,随着生物学的发展,基因序列数据量成倍增加,传统的串行序列比对算法无法满足日益扩大的数据规模的需要。本文基于序列比对算法的特征研究其并行算法,提出一种序列编码算法和数据“首条序列划分”法,以有效提高算法的并行效率,为解决大规模生物序列比对问题奠定基础。本文主要的创新性工作包括:(一)提出一种新的DNA序列编码算法,实现基于MPI的并行FED算法。本文分析比较了DNA序列中精确比对(Exact Sequence Alignment)类型的算法,发现随着数据量的增长,算法计算时间会显著增加。为了解决这一问题,首先,我们提出了一种基于位运算的序列编码方式,以此降低数据存储空间,加快序列编码速度,从而提高算法效率;然后,采用并行算法对FED算法进行改进,并通过消息传递模型(MPI)在集群环境下实现算法的并行化,实验表明,该并行算法在20核环境下运行时,加速比达到16.1。(二)提出最适合CVoting算法的“首条序列划分”法,并基于MPI实现算法的并行。本文研究了模体发现问题(Motif Finding Problem)中计算挑战实例的算法,CVoting是目前具有代表性的能解决大型挑战实例的算法,但是它计算(21,8)挑战实例的时间依然需要超过20小时。因此,本文基于MPI的特点,设计三种数据划分方法,分析和比较三种方法对算法的适应性,提出“首条序列划分”方法是适合CVoting算法并行的最佳方式。该方式不仅实现算法的并行,将(21,8)挑战实例的运算时间降低到20分钟以内,而且算法从1个计算核开始一直到128个计算核始终保持加速比的线性增长,其中,在128核时加速比达到96.2。
其他文献
为了改善沥青路面粘结剂—沥青胶浆的高低温性能,从材料流变学和粘弹性力学出发,采用动态剪切流变仪测定纤维沥青胶浆的相位角和车辙因子,采用弯曲梁流变仪测定沥青胶浆的蠕
期刊
高校招生是人才培养的基础环节,是各方教育利益的聚合点,任何有关招生制度改革的动向会引起社会的广泛关注。2003年,教育部在江苏试点的基础上,开始在22所部属重点大学开始推
<正>一般来说,审理涉及买卖、共有、赠与等原因产生的房屋权属争议案件时,可能会出现既要判断如买卖、共有、赠与等民事行为的效力,又要判断房产证等登记行政行为的效力的情
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 ,无词典分词模型能够满足快速分词的要求
自从股权分置改革完成之后,定向增发已经成为我国资本市场上最重要的股权再融资工具。由于投资定向增发可以获得相对稳定的收益,越来越多的投资者参与其中,但近年来多只定向
威廉姆·格兰特·斯蒂尔(William Grant Still,1895-1978)是美国音乐史上第一位欧洲古典浪漫乐派风格的黑人作曲家,也是20世纪美国最伟大的黑人作曲家。他打破了美国音乐界在
公共资源交易领域公共权力集中,利益冲突激烈,近年来,Y市公共资源交易领域腐败现象频发。中央、国务院明确提出要从源头上预防和惩治腐败,扎实推进“廉政阳光工程”,推进“为
政府经济职能的内容中,很重要的一方面就是保持宏观经济的稳定性。稳定的宏观经济是市场活动的主体的共同要求;实践表明,市场的自我组织机制不可能消除经济周期性波动,唯有依
[目的]全面了解不同年份黄酒香气的差异,对年份黄酒的品质进行更加全面的评价。[方法]将不同年份的黄酒经预处理后,采用顶空固相萃取-气相色谱-质谱联用法分析其挥发性风味成分及