基于k-mer相异度算法在系统进化关系中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:helen_fu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统发育学是研究生物进化关系的一门学科,在系统发育学中,最常用于研究进化关系的方法就是系统进化树。基于多序列比对法的经典的系统进化树构建算法速度太慢,无法在大规模数据上进行运行,序列非比对法中基于k-mer的相异度算法构建系统进化树则不受这些限制影响,因而具有更广泛的应用前景。近些年来,基于k-mer的相异度算法被强调为基于系统发育推断中多重序列比对法的替代方法。基于k-mer的相异度算法属于序列非比对法中的一种,正处于快速发展的阶段,在不同的进化情景下使用基于k-mer的相异度算法系统地评估系统发育推理的准确性成为当前研究的一个热点和难点。本论文利用自己开发的软件包SeqDistK及一种比较经典的CAFE软件包实现了d2S等7种基于k-mer的相异度算法的距离矩阵,并在此基础上结合UPGMA构建系统进化树或进行聚类。基于一个已知进化关系的16S rRNA验证数据集(57条分子序列,称之为标准树),我们验证了基于k-mer的7种相异度算法构建系统进化树的准确度。与已知的真实进化关系相比较,我们发现基于k-mer的d2、d2S、d2star、Ma、Eu、Hao等多个相异度算法所得的系统进化树与标准树差异不大(Ch有一定的误差),特别是d2、d2star、d2S和Eu算法在k=5时有极其优异的性能,所得系统进化树与标准树相差无几。其中相异度算法d2S选取马尔可夫阶次为2时的算法可达到最高精准度(对称差仅有12)。本论文还利用软件包SeqDistK对63条16S rRNA序列所得的距离矩阵进行菌类聚类验证,发现所得聚类结果与生物分类学基本一致,其中d2S(k=5,M=2)的表现最为优秀,能准确的对样本序列聚类以及分类。另外我们发展的基于k-mer相异度算法的软件包SeqDistK无论是构建系统进化树还是菌类聚类具有运算速度快、精确度高的特点,适合于研究宏基因组大数据中的复杂系统发育关系的推理。使用基于k-mer相异度算法结合UPGMA研究基因组的复杂进化关系,这可能潜在地为系统进化提供新的见解,并改变我们传统的进行系统发育的研究方式,潜在地推进下一代系统发育学的发展。
其他文献
美国《哈佛商业评论》杂志在其创刊75周年之际,就“企业管理人员在进入21世纪时,将会面临哪些挑战?”这一主题采访了美国当代五位著名思想家和观察家。 他(她)们分别是:德鲁
研究了L-脯氨酸在D001大孔强酸性阳离子交换树脂的吸附性能,为其工业化生产提供科学实验依据。以吸附率和解吸率为考察指标,研究了不同实验条件对L-脯氨酸静态吸附和动态吸附
我国德育制度中存在有悖人本主义的方面,表现在学校德育制度过于强调国家和社会的需要,相对忽视对学生个体价值的尊重;制度制定中学生缺位,德育制度缺乏代表性;德育制度的功
绝缘子表面高压电极故障所导致的局部放电是气体绝缘组合电器(gas insulated switchgear,GIS)设备内部较为常见一种放电。为实现GIS设备中绝缘子表面高压电极故障局部放电严
采用气相色谱-飞行时间质谱法,对小茴香籽油的香味成分进行了分析,并用峰面积归一化法计算了各香味成分的相对含量。对各色谱峰对应的质谱数据于NIST标准质谱库中进行相似度
认识耕地利用与粮食生产的耦合作用规律是确保粮食安全和可持续发展的基础。基于模型模拟、GIS和多目标情景模拟等方法,在定量分析粮食生产对耕地利用变化动态响应基础上,分
±500kV三沪Ⅱ回直流输电工程是我国首条同塔双回直流输电线路,同塔双回的特殊结构在节约输电线路走廊资源等方面有一定优势,但在防雷安全方面较单回直流输电线路有显著区别,
《草木篇》及其作者流沙河,在1957年的"反右"运动中受到批判,二十年后才得到平反。用现代的眼光审视《草木篇》这首诗歌,主要有两个方面的艺术特色:一是虚构与真实的统一,二
现当代以及外国文学界很多论者认为,中国古代文学作品中的父亲形象总是高大完美的,现代文学中的"审父"意识是西方异质文化冲击的产物,其实不然。在中国古代文学作品尤其是明
在我国的政治发展中,"权威实现秩序"的逻辑有嬗变为"权威主义实现稳定"的危险。梳理这一嬗变过程,通过界定"权威实现秩序"的内涵,能够廓清"权威实现秩序"在空间、时间、类型三个方面