基于自编码器与蒙特卡洛树的系统发育树构建方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:hsu_mike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统发育学是一门研究如何构建物种之间系统树的学科,是理解生物多样性、进化历史、生态学等的核心。在古生物系统发育分析中,可用的信息只有从化石上提取的形态学数据。由于化石本身形成与挖掘的困难,数据中基本都包含一定的缺失数据和不可适用数据,它们会影响系统发育树的构建。针对以上问题,本文的主要工作如下:1)在形态学数据仿真实验中探究了缺失数据比例和缺失数据模式如何影响系统发育树的构建。然后,比较了在不同情况下对缺失数据进行忽略或删除时的建树效果,为在具体系统发育分析中如何进行缺失数据处理提供了指导。2)为解决缺失数据对系统发育树推断的问题,提出一种基于自编码器的二段式缺失插补方法,首先使用链式方程多重插补结果作为预插补值,再通过由已知数据训练好的自编码器对预插补值进行多轮矫正。本文方法考虑了数据间的线性关系与其在隐含层纬度的关联关系,在UCI连续型数据集和形态学离散型数据集上都有着较高的插补准确率,减少了缺失数据对系统发育树构建的影响。3)针对不可适用数据对发育树构建的影响,提出了结合不可适用Fitch算法的蒙特卡洛树搜索算法来对含有不可适用数据集进行系统发育树推断。相对于将不可适用数据当作新的特征状态或缺失数据,不可适用Fitch算法基于最大同源性假设,能对不可适用数据进行更合理的处理。而使用蒙特卡洛树搜索算法来寻找系统发育树,能有效避免搜索陷入局部最优的问题。同时,使用分支长度对蒙特卡洛树进行剪枝,减小了搜索范围,能较快地搜索到良好的系统发育树。首先,本文通过仿真实验来为缺失数据如何处理提供指导;然后,针对缺失数据,提出一种基于自编码器的二段式缺失插补方法;最后,对含有不可适用数据的系统发育树构建问题,采用结合不可适用Fitch算法的蒙特卡洛树搜索方法进行系统发育树构建。相比于现在主要基于分子数据的系统发育方法,本文对缺失数据和不可适用数据的处理都更为合理。
其他文献
随着气候变化的不断加剧,近几十年、尤其是近10年来,从北极到青藏高原,从内陆河流域到西伯利亚,气候变化的水文影响已经不断显现,对区域和流域的水资源管理带来了巨大挑战,未来如何变化受到广泛关注。全球气候模式(GCMs)为预估未来气候变化提供了有效信息,但由于其空间分辨率太粗,难以直接应用到区域或流域气候变化影响的评估中,必须进行降尺度,其中统计降尺度应用最为广泛。已有大量研究利用自动统计降尺度方法(
全球气候变暖加剧导致水循环加强,各类极端气象水文灾害愈加频发。中国是世界上受气象灾害影响最严重的地区之一,在气候变暖背景下社会发展面临的灾害风险挑战更加复杂严峻。受灾情况(灾情)是衡量灾害对人类社会影响程度的重要标准,灾情严重程度不仅取决于灾害本身强度大小,还受到当地社会发展适应灾害的能力影响。因此,清晰认识气象灾害灾情演变规律,合理分析极端气象要素变化和社会经济发展水平,并在此基础上定量评价灾情
泥页岩是地球上最为常见和分布最广的一种岩石类型。然而泥岩沉积学研究相较于其他常见沉积岩类型一直处于滞后状态。近年来研究发现泥页岩的成因可以是多种沉积作用的产物,其最终沉积物的形态主要取决于沉积过程中的物理、生物和化学作用的相互作用。本文借鉴国外泥页岩沉积学的新进展和新方法,在鄂尔多斯盆地东南部延长组开展符合页岩气勘探要求的陆相泥岩沉积学研究。延河剖面作为正层型剖面其长7层段连续出露且顶底界限清楚,
彭阳地区处于鄂尔多斯盆地西缘,横跨西缘逆冲断带和天环坳陷2个二级构造单元。延安组沉积在平面上发育辫状河三角洲平原相,垂向上表现为河道砂体与沼泽泥岩间互叠置。彭阳地区延安组油气来源于三叠系延长组,延长组整体致密,物性差,是较为典型的岩性油气藏。延安组油层砂体发育且物性良好,但其油藏规模局限,与由于储层上部缺乏封闭能力强的盖层从而导致石油向上逸散有关。因此良好的储盖组合对于寻找油气富集有利区带有很重要
青藏高原的扩展生长及其周缘响应已成为地球科学急需解决的科学挑战之一,高原向外扩展变形的时间、范围以及机制是地学界长期关注的热点问题。其中,青藏高原东北缘向北东方向扩展变形的影响范围目前仍存在较大争议。贺兰-六盘构造带位于青藏高原东北缘扩展变形的前锋地带,其深部变形特征对约束高原东北缘向北东方向扩展变形的影响范围至关重要。因此,本论文选取贺兰-六盘构造带及邻区为研究区,利用在该区布设的宽频带地震仪记
可持续发展是当今人类面临的巨大挑战,人类活动已经对地球原本的自然环境造成了深远的影响,土地利用与景观首当其冲。黄土高原丘陵沟壑区作为自然环境脆弱的典型区域,如何有效评估该区域景观可持续性,充分发挥生态资源优势,实现人—地复杂系统协调发展的最终目标,成为目前地理学与生态学关注的热点问题之一。将位于黄土高原丘陵沟壑区的陕西省米脂县作为本文的研究区,首先构建CA-Markov模型,预测研究区2025年的
新疆既是我国面积最大的省份,也是我国最为干旱的地区,具有显著的温带大陆性干旱气候特征。受自然地理位置等因素的影响,干旱已经成为新疆北疆地区最为典型的自然灾害之一,具有发生频次高、影响范围广、危害程度大等特点,对农业、生态和经济都有很大影响。量化该地区干旱的时空变化特征对未来的干旱趋势进行预测以及合理应对干旱事件、降低干旱造成损失具有重要意义。本研究分析了1961~2017年北疆地区29个地面气象站
随着全球环境变化和生态问题的日益加剧,地表植被成为区域生态健康的鲜明指示因子,探究山地植被与气候变化时空耦合关系对揭示气候变化对区域植被动态的影响、地理国情监测和区域生态保护具有重要的指示意义。本文基于秦岭地区32个气象站点的数据研究了2000—2018年该地的气温、降水时空变化规律,结合同期的MODIS NDVI数据,研究了植被覆盖空间分布特征和时间变化趋势,统计了秦岭植被NDVI与气候变化的关
针对Allee效应影响濒危物种生存的捕食-食饵问题,本文基于挖掘强Allee效应和弱Allee效应的本质区别,建立了一类具有强弱Allee效应的捕食模型.依次在弱Allee效应和强Allee效应下,通过理论证明分析系统的全局性态,并结合数值模拟验证.为制定保护濒危物种方面的有效策略提供了理论依据,进一步丰富了Allee效应在捕食模型中的研究课题.一方面,研究了食饵具有弱Allee效应的情形.依据平
通常认为在平行层面压缩的情况下,沉积岩一般经历了从沉积成岩组构、初始变形组构、铅笔构造到初始劈理、弱劈理和强劈理等六阶段的岩石应变和岩石组构演化。其中,初始变形组构一般认为形成于沉积之后、固结成岩之前,记录了控盆构造及盆地发育时期的古应力信息,是解析沉积盆地构造属性的关键。然而,初始变形组构往往会在后期盆地反转变形时被改造。因此,经历不同程度变形改造的地层所记录的岩石组构特征如何,是否还会保留初始