论文部分内容阅读
松杉灵芝(Ganoderma tsugae)是我国东北地区珍贵的灵芝物种,现已成为重要的保健产品来源。与赤芝(G.sichuanense)和紫芝(G.sinense)等其他灵芝相比,野生松杉灵芝主要分布在长白山林区,生长在落叶松和冷杉等针叶树上,具有利用针叶林的优势。以往的松杉灵芝研究主要集中在次生代谢产物的分离及药理作用,然而,其系统进化、遗传多样性、遗传分化等重要生物过程尚不明确。目前,NCBI数据库公布了松杉灵芝菌株(GCA_003057275.1)的基因组,但因其采用Illumina测序技术,组装结果碎片化,共有6,742个contigs且N50长度仅达到11.7 kb,阻碍了重要生物活性化合物的功能基因研究。因此,本论文对松杉灵芝野生种质资源的单核菌株进行全基因组测序,经过组装得到高质量的参考基因组,通过与赤芝、紫芝和狭长孢灵芝进行比较基因组分析,探究其基因结构、遗传信息、系统进化等进行基因组学差异分析;并基于全基因组数据进行SSR分子标记的开发,为松杉灵芝遗传多样性研究提供资源;然后,基于全基因组重测序分析进一步解析其群体的遗传结构及多样性;最后,基于全基因组挖掘萜类合酶基因家族,并对萜类合酶基因编码和调控区域进行SNP变异检测及克隆验证,为进一步开发分子标记及后续基因功能验证奠定基础。主要研究结果如下:1.松杉灵芝全基因组测序及比较基因组学分析。通过原生质体单核化技术获得长白山林区松杉灵芝野生种质资源G41的单核菌株,利用Pac Bio长reads的测序和Illumina短reads进行双端测序,测序深度分别为220×和123×,经过组装和注释得到松杉灵芝的基因组,基于全基因组数据对松杉灵芝进行SSR分子标记的开发,并与灵芝属中已公布的赤芝、紫芝和狭长孢灵芝(G.boninense)进行比较基因组分析。结果表明:(1)松杉灵芝基因组大小为43.26 M,包含18条contigs,contig N50为3.16 M,BSUCO评估结果为98.5%,本论文获得高质量松杉灵芝基因组。(2)在基因组的18个contigs中共鉴定出2,508个SSR位点,设计了11,645对SSR引物,并从中筛选出100对进行电泳检测,最终88对引物成功扩增,其中59对具有多态性。(3)比较基因组分析探究了灵芝属的系统发育关系和分歧时间,发现灵芝属与叉丝孔菌属在3800万年前发生分歧,而松杉灵芝与其它3种灵芝的共同祖先发生分歧是在约2100万年前,推测可能喜马拉雅山脉的运动造成了当时中国南北方气候的改变,从而导致了灵芝属物种的分歧和现今的地理分布格局。在松杉灵芝基因组中共16个基因家族、151个基因发生了扩张,KEGG富集分析表明这些基因在脂肪酸代谢(fatty acid metabolism)、范可尼贫血通路(fanconi anemia pathway)、同源重组(homologous recombination)等通路发生富集,如水杨酸羟化酶(salh)、苯酚2-单加氧酶(phea)、cyp53a1和cyp102a;共184个基因受到了正选择,且在错配修复(mismatch repair)、范可尼贫血通路(fanconi anemia pathway)、碱基切除修复(base excision repair)、DNA修复(DNA repair)和植物-病原互作通路(plant-pathogen interaction pathway)中显著富集,如甘油激酶(glpk)和酰胺酶(amie)。这些扩张和正选择基因可能在松杉灵芝生长和环境适应方面发挥重要作用。2.松杉灵芝群体基因组学分析。利用二代测序Illumina平台对22株松杉灵芝和18株赤芝进行全基因组重测序分析。(1)松杉灵芝和赤芝分别获得了937.70~2,605.23 Mb和1,203.90~2,225.63 Mb的测序数据,平均测序深度分别为32.57×和40.12×。(2)在松杉灵芝群体全基因组重测序中共鉴定出214,161个高质量的SNP位点,这些SNP位点在18个contigs上约呈均匀分布。其中超过27.7%、12.2%、13.0%、11.6%和31.5%的位点分别位于外显子、基因上游、基因下游、内含子和基因间区域;外显子区域的SNP密度最低,其次是基因上游区域,基因下游、内含子和基因间区域的SNP密度显著高于外显子和上游区域。(3)对SNP密度最高的前1000个基因进行功能富集,结果表明这些基因大部分参与转运和膜蛋白等通路。(4)系统发育关系、PCA分析及群体结构分析表明,松杉灵芝与赤芝形成两个不同的分支,显示出明显不同的遗传背景。3.松杉灵芝萜类合酶相关基因家族分析。基于松杉灵芝全基因组数据,对其萜类合酶基因家族进行鉴定,对这些基因进行同源基因建树、基因结构和序列信息分析,在群体中检测其全基因组范围的SNP变异,并进行基因克隆验证。结果显示:(1)在松杉灵芝全基因组范围内共鉴定到10个萜类合酶基因,其中有6个基因编码三种萜类合酶(Cop1-4),分别是germacrene A合酶(Cop1和Cop2)、γ-muurolene合酶(Cop3)和γ-cadinene合酶(Cop4),以及4个基因编码trichodiene合酶(TRI5)。这些基因分布在5个contigs上,来自7个基因簇。6个萜类合酶含有Terpene_syn_C-2结构域,4个trichodiene合酶含有Isoprenoid_Biosyn_C1结构域,10个基因均属于倍半萜合酶。(2)对10个萜类合酶基因进行克隆及菌丝阶段反转录PCR(RT-PCR)验证,结果表明10个基因序列全长在1,178~1,478 bp之间,含有内含子数量为2~5个,鉴定结果与测序结果高度一致,证明了松杉灵芝基因组数据的准确性。(3)基于群体全基因SNP变异结果显示,在10个萜类合酶基因中,有9个基因在编码区发生了非同义突变,并选取3株不同松杉灵芝菌株进行基因克隆验证,鉴定结果与预测的SNP变异信息基本一致,为进一步开发分子标记奠定基础。