【摘 要】
:
随着高通量测序技术的不断发展,产生了海量生物序列数据,如何有效挖掘分析这些数据面临巨大挑战。而基于高通量测序技术发展的宏基因组学,不依赖传统微生物纯培养技术,直接提取环境样本中全部微生物遗传物质,从DNA、RNA序列出发,研究样本中所包含的全部微生物遗传物质组成、微生物群落结构及功能。三代测序序列比对和微生物操作单元(Operational Taxonomic Units,OTUs)划分是挖掘分析
【基金项目】
:
国家自然基金面上项目,基于复杂网络的海洋微生物多样性研究,No.611701334,2012-2015国家自然基金重大研究计划培育项目,太空舱内微生物种群结构及功能分析相关计算方法,No.91430111,2015-2017;
论文部分内容阅读
随着高通量测序技术的不断发展,产生了海量生物序列数据,如何有效挖掘分析这些数据面临巨大挑战。而基于高通量测序技术发展的宏基因组学,不依赖传统微生物纯培养技术,直接提取环境样本中全部微生物遗传物质,从DNA、RNA序列出发,研究样本中所包含的全部微生物遗传物质组成、微生物群落结构及功能。三代测序序列比对和微生物操作单元(Operational Taxonomic Units,OTUs)划分是挖掘分析微生物种群结构、多样性及生物学功能的前提和基础,快速有效的序列比对和OTUs划分算法开发有助于发现数据中隐藏的微生物信息。本文以微生物序列数据为研究对象,在三代测序序列数据处理、OTUs划分方面进行了系统深入研究,主要工作如下:1、针对Pac Bio三代测序序列特点,通过全面分析Pac Bio真实序列数据的长度分布、误差分布模型、误差率与质量分数间的关系,开发一款Pac Bio序列模拟器(NPBSS)。NPBSS首先根据对数正态分布产生序列长度;然后根据质量分数分布频率选取每个位置的质量分数;进而通过经验模型计算每个位置的整体错误率;最后按照不同类型的错误误差比例分配测序错误,生成Pac Bio模拟序列。实验测试结果表明,NPBSS模拟器产生的序列可有效模拟Pac Bio测序误差,其输出序列特性更加接近真实Pac Bio测序序列数据。NPBSS模拟器可为评价三代序列比对算法可靠性提供有效的基准数据集。2、针对目前三代测序序列比对算法普遍存在比对覆盖率低问题,提出一种基于种子定位和列降维带状打分的三代序列比对算法(sms Map)。sms Map算法首先对参考基因组序列进行BWT-FM变换;然后计算待比对序列每个匹配种子得分值,选取最大得分值的种子进行快速定位,确定待比对序列和基因组的比对起始位置;最后根据列降维带状打分矩阵得到序列比对结果。五组测试实验结果表明,sms Map算法具有较高的比对灵敏度和比对覆盖率,同时对测序误差具有较强的鲁棒性。3、为了降低现有启发式OTUs划分算法的测序误差敏感性,在启发式策略中引入DB(de Bruijin)图模型进行种子序列选取,提出一种基于DB图的启发式OTUs生成算法(DBH)。DBH算法首先根据序列相似性阈值搜索初始序列团;然后构建每个初始序列团的DB图,生成一条序列表示序列团;最后将新读入的序列与此代表种子序列进行相似性比较,进而完成序列聚类过程,生成系列OTUs。实验结果表明,DBH算法对测序误差具有较好的鲁棒性,能够有效降低OTUs过估计,且算法复杂度较低,可对海量16S r RNA序列数据快速聚类。4、针对启发式OTUs划分算法严重依赖种子序列选取、单个种子序列代表聚类团导致低的聚类精度与聚类质量问题,提出一种动态多种子更新的启发式OTUs划分算法(DMSC)。DMSC算法选取多核心序列为聚类团的种子序列,新序列加入聚类团后动态更新聚类团的种子序列,进而生成系列OTUs。多核心种子的选取与更新可有效代表每个聚类单元,实现准确的OTUs划分。五组测试数据实验表明,DMSC算法在聚类精度和聚类质量方面均取得较好结果。
其他文献
高分子染料是指通过化学反应将小分子染料引入到高分子的主链或侧链上而形成的一类新的有色高分子聚合物,因其具有很多传统小分子染料不具备的优点(耐迁移性高、耐溶剂性好、安全性高),而日益成为研究的热点。目前市面上的高分子染料大多是通过聚合反应制得的聚醚及聚酯类合成高分子染料,以天然高聚物为骨架的生物基高分子染料研究较少。在资源与环境问题日益严重的当下,寻找一种绿色可再生的天然高分子物作为骨架,开发一种更
微电网群将地理位置毗邻的微电网、分布式发电和储能装置互联接入中低压配电系统,是进一步提高分布式新能源发电渗透率,促进微电网技术发展的重要形式。不同于单个微电网,微电网群结构复杂,运行过程中受控制量维数、预测数据精度等限制,微电网群协调控制在分布式微源功率优化、功率平衡、系统经济运行优化及电压稳定控制等方面存在较大挑战。为此,论文从设备级到系统级、常规模式到应急模式两个维度,针对并网运行模式下微电网
工业化进程加速提升物质文明的同时带来了严重的环境问题,有机污染物的排放使原本紧缺的淡水资源面临更严峻的考验,威胁着人类的健康和发展。有机染料作为广为使用的工业原料,其不当排放造成的水体污染已成为关注焦点,对于其治理世界各国都在探索行之有效的科学方案。光催化技术以其快速、高效的优势受到青睐,但抑制其快速发展并推进应用的原因主要集中在如下三个方面:一是多数依赖紫外光驱动,对太阳光的利用率低;二是单组份
21世纪以来,新兴市场国家在全球的经济地位快速提升,新兴市场企业也积极参与到国际市场竞争。中国作为新兴市场的代表国家,提出“一带一路”和“走出去”战略,越来越多的中国企业通过成功的海外并购实现了综合能力的提升,达到行业领先水平。然而,在来源国劣势以及由此带来的各种负面影响下,也有不少中国企业海外并购遭遇到严格审查甚至抵制。即使并购成功,也常常不能进行有效的整合,非但没有达到本身的战略目的,反而让企
多无人机容错协同控制是控制领域和航空领域的研究热点,在安全协同作业领域具有广阔的应用前景。多无人机遭遇故障时的跟踪偏差变化和补偿时间间隔是与多无人机安全协同作业紧密相关的因素。此外,未知气动参数和外界风扰均会影响容错协同控制系统的性能。目前,多无人机容错协同控制方案设计极少考虑以上问题。因此,如何在容错协同控制方案的设计过程中考虑以上因素是一个亟待解决的难题。近年来,多智能体协同控制技术和智能控制
酶燃料电池是一种以生物酶为电催化剂的新型电池。由于燃料电池具有良好的生物相容性、能够在常温常压下运行、对环境友好、可用于可植入或可穿戴设备等诸多优点而拥有广阔的应用前景,备受研究者关注。酶燃料电池的核心部件是酶电极,它是一种利用酶的催化作用,催化氧化或催化还原底物产生电流的装置。酶电极及其构筑方法直接决定了酶燃料电池的性能。然而目前酶电极的输出性能和稳定性不满足实际使用的要求。这是由于酶电极上负载
玻纤滤材具有过滤精度高和纳污量大等优点,但其耐折和耐压等性能较差,需要与非织造布复合以提高其加工性和使用寿命,但传统的上胶复合工艺容易造成玻纤复合滤材透气性下降。将热熔胶树脂颗粒通过熔喷技术以超细纤维形式均匀负载到纺粘布上,进一步利用热轧复合技术与玻纤滤材复合,得到了剥离强力高、透气性基本不变的玻纤/纺粘复合滤材。通过对比复合玻纤滤材的剥离强度和透气性变化,发现超细纤维负载量对复合滤材的性能影响最
本文基于CATIA的三维数字化设计和CHS二维原理接线图线束图交互设计,利用CATIA和CHS软件的参数化功能及二次开发,提出飞机线束重量计算及统计新的实现方法,该方法可以大幅度减少工程设计工作量,提高工作效率,提高重量计算结果的准确性,进而缩短产品的研发周期。在民用飞机设计的过程中,需要进行全机重量、重心的估算。而线束作为整架飞机重量中占比较大的一部分,会影响到飞机重心位置和起飞重量。由于