论文部分内容阅读
在非模式物种的系统发育学研究中,跨物种外显子富集技术是广泛应用的获得多位点数据的方法之一。它首先根据已有的参考基因组或转录组设计DNA或RNA探针,然后将探针与样本的DNA文库杂交。在杂交和清洗过程中逐步降低反应温度使探针可捕获与其有一定相似度的序列,从而可实现跨物种外显子富集。用于设计探针序列的物种与被富集样本之间的亲缘关系可能相差较远,所以一般使用从头组装的方法来组装跨物种外显子富集数据。但是目前从头组装外显子富集数据的方法存在以下诸多问题(1)部分组装流程直接将大量原始序列输入组装软件进行组装,而外显子富集数据量一般较大,直接组装可能导致过度占用内存。(2)当位点长度较短或设计探针的物种与被富集样本之间亲缘关系较远时,外显子富集数据的测序深度会比较低。但某些组装流程中使用的组装软件不能组装测序深度较低的位点,这可能导致丢失大量数据(3)目前的组装流程大多不使用基因组信息来判断组装结果是否为旁系同源序列,但这些方法不能准确判别旁系同源序列。(4)部分组装流程中的步骤需要手动操作,在组装大量样本时效率极低。考虑到以上问题,本研究重新设计了组装外显子富集数据的组装流程,并用Perl语言编写成全自动组装外显子富集数据的软件Assexon。为了探究Assexon的组装效果,我们用基于斑点雀鳝(Lepisosteus oculatus)和尼罗罗非鱼(Oreochromis niloticus)的基因组序列设计的探针分别富集来自长吻雀鳝(L.osseus)(4.37 Gb)和大弹涂鱼(Boleophthalmus pectinirostris)(2.43 Gb)样本的序列,并用Assexon、PHYLUCE、Hybpiper和来自袁昊等人研究中的脚本(在下文中简称为CP)一同组装这些序列。Hybpiper和PHYLUCE是目前普遍使用的两种基因富集序列组装软件,它们分别用于组装超保守位点(Ultraconserve elements,UCE)和外显子位点。组装结果显示,Assexon组装准确的位点数是PHYLUCE的两倍,并至少比Hybpiper多准确组装了1000个位点。与此同时Assexon的组装结果中并没有旁系同源序列,而PHYLUCE组装结果中有1条旁系同源序列。Hybpiper的组装结果中有5条旁系同源序列,其中2条经过建立基因树进一步确认组装结果与参考序列之间是旁系同源关系。Assexon组装效率至少是PHYLUCE和HybPiper的两倍。CP组装准确的位点数与Assexon不相上下,且组装结果中没有旁系同源序列,但CP的部分步骤需要手动操作。综上所述,Assexon能够高效且准确的组装原始序列数量较大的跨物种外显子富集数据。相比编码区,侧翼区域中存在更多变异可用于亲缘关系较近的物种间的系统发育分析。但由于部分侧翼序列为内含子,它们在样本之间的差异过大因此难以比对。为了过滤侧翼区域中难以比对的序列,本研究设计了过滤方法并用Perl语言编写成脚本flank_filter.pl。为了探究物种内与物种间侧翼序列的差异程度以及flank_filter.pl提取可比对侧翼区域的效果,本研究从宋书莉等人的研究中选取了5条翘嘴鳜(Siniperca chuatsi)和5条大眼鳜(S.kneri)个体的外显子富集数据并用Assexon进行组装,接着用flank_filter.pl对侧翼区域进行过滤。在过滤前,鳜鱼种内及种间至少有2%的侧翼序列间的两两遗传距离(pairwise distance,p-dist)均超过0.4,最高p-dist均达到0.8以上,在过滤后鳜鱼种内及种间侧翼序列间的最高p-dist为0.41。说明无论种内或中间侧翼序列间的总存在一部分差异极大的序列,它们之间难以比对并无法纳入系统发育分析,而flank_filter.pl则有效过滤去除了其中差异较大的侧翼序列。在组装后处理阶段,Assexon中包含了一系列过滤脚本包括可过滤编码区域中比对效果较差的序列的脚本,以及筛选出可能具有正确系统发育信号的位点的脚本。过滤后数据经Assexon中的格式转换脚本的处理可直接用于常见系统发育分析。