跨物种外显子富集数据的组装与过滤

来源 :上海海洋大学 | 被引量 : 0次 | 上传用户:wanglt111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在非模式物种的系统发育学研究中,跨物种外显子富集技术是广泛应用的获得多位点数据的方法之一。它首先根据已有的参考基因组或转录组设计DNA或RNA探针,然后将探针与样本的DNA文库杂交。在杂交和清洗过程中逐步降低反应温度使探针可捕获与其有一定相似度的序列,从而可实现跨物种外显子富集。用于设计探针序列的物种与被富集样本之间的亲缘关系可能相差较远,所以一般使用从头组装的方法来组装跨物种外显子富集数据。但是目前从头组装外显子富集数据的方法存在以下诸多问题(1)部分组装流程直接将大量原始序列输入组装软件进行组装,而外显子富集数据量一般较大,直接组装可能导致过度占用内存。(2)当位点长度较短或设计探针的物种与被富集样本之间亲缘关系较远时,外显子富集数据的测序深度会比较低。但某些组装流程中使用的组装软件不能组装测序深度较低的位点,这可能导致丢失大量数据(3)目前的组装流程大多不使用基因组信息来判断组装结果是否为旁系同源序列,但这些方法不能准确判别旁系同源序列。(4)部分组装流程中的步骤需要手动操作,在组装大量样本时效率极低。考虑到以上问题,本研究重新设计了组装外显子富集数据的组装流程,并用Perl语言编写成全自动组装外显子富集数据的软件Assexon。为了探究Assexon的组装效果,我们用基于斑点雀鳝(Lepisosteus oculatus)和尼罗罗非鱼(Oreochromis niloticus)的基因组序列设计的探针分别富集来自长吻雀鳝(L.osseus)(4.37 Gb)和大弹涂鱼(Boleophthalmus pectinirostris)(2.43 Gb)样本的序列,并用Assexon、PHYLUCE、Hybpiper和来自袁昊等人研究中的脚本(在下文中简称为CP)一同组装这些序列。Hybpiper和PHYLUCE是目前普遍使用的两种基因富集序列组装软件,它们分别用于组装超保守位点(Ultraconserve elements,UCE)和外显子位点。组装结果显示,Assexon组装准确的位点数是PHYLUCE的两倍,并至少比Hybpiper多准确组装了1000个位点。与此同时Assexon的组装结果中并没有旁系同源序列,而PHYLUCE组装结果中有1条旁系同源序列。Hybpiper的组装结果中有5条旁系同源序列,其中2条经过建立基因树进一步确认组装结果与参考序列之间是旁系同源关系。Assexon组装效率至少是PHYLUCE和HybPiper的两倍。CP组装准确的位点数与Assexon不相上下,且组装结果中没有旁系同源序列,但CP的部分步骤需要手动操作。综上所述,Assexon能够高效且准确的组装原始序列数量较大的跨物种外显子富集数据。相比编码区,侧翼区域中存在更多变异可用于亲缘关系较近的物种间的系统发育分析。但由于部分侧翼序列为内含子,它们在样本之间的差异过大因此难以比对。为了过滤侧翼区域中难以比对的序列,本研究设计了过滤方法并用Perl语言编写成脚本flank_filter.pl。为了探究物种内与物种间侧翼序列的差异程度以及flank_filter.pl提取可比对侧翼区域的效果,本研究从宋书莉等人的研究中选取了5条翘嘴鳜(Siniperca chuatsi)和5条大眼鳜(S.kneri)个体的外显子富集数据并用Assexon进行组装,接着用flank_filter.pl对侧翼区域进行过滤。在过滤前,鳜鱼种内及种间至少有2%的侧翼序列间的两两遗传距离(pairwise distance,p-dist)均超过0.4,最高p-dist均达到0.8以上,在过滤后鳜鱼种内及种间侧翼序列间的最高p-dist为0.41。说明无论种内或中间侧翼序列间的总存在一部分差异极大的序列,它们之间难以比对并无法纳入系统发育分析,而flank_filter.pl则有效过滤去除了其中差异较大的侧翼序列。在组装后处理阶段,Assexon中包含了一系列过滤脚本包括可过滤编码区域中比对效果较差的序列的脚本,以及筛选出可能具有正确系统发育信号的位点的脚本。过滤后数据经Assexon中的格式转换脚本的处理可直接用于常见系统发育分析。
其他文献
第一部分HDE抑制MDS细胞株SKM-1增殖的实验研究目的研究白花蛇舌草总黄酮(HDE)对骨髓增生异常综合征(MDS)细胞株Skm-1细胞增殖的抑制作用,并进一步探讨其作用机制。方法采用M
自第二次工业革命以来,电子行业逐渐向着设备微型化、智能化方向发展。电子芯片的散热功率迅速增加,热流密度可达上百瓦每平方厘米,为确保电子设备的安全稳定工作,热交换装置
2011年日本福岛核电站由海啸及地震引发严重核事故。我国地处世界上两个活跃的地震带中间,核电在我国蓬勃发展,因此总结本次地震的经验教训,对我国核电发展具有重要意义。漂
阿尔茨海默病(AD)是严重威胁老年人健康的神经退行性疾病,AD的发生、发展涉及多种发病因素,机制复杂,多靶标药物已成为AD治疗药物研发的热点领域。针对AD病因中的β-淀粉样蛋
猪流行性腹泻(PED)是由猪流行性腹泻病毒(PEDV)引起的急性传染病,该病导致猪小肠绒毛萎缩并严重损害肠功能,阻碍了猪业的稳定发展。自2010年以来,出现了 PEDV变异株且开始流行,使得现有疫苗的免疫效力不高。为了能够有效控制PED的发生,深入探索PEDV分子致病机制是很有必要的。趋化因子介导细胞募集到炎症部位与并细胞因子互相产生影响。由于IEC细胞系为猪肠道病原体的靶细胞,也是体外研究的理想
猪繁殖与呼吸综合症(Porcine Reproductive and Respiratory Syndrome,PRRS)是由猪繁殖与呼吸综合症病毒(Porcine Reproductive and Respiratory Syndrome Virus,PRRSV)引起的一种以母猪繁殖障碍和仔猪呼吸系统疾病为特征的高度接触性传染病。自该病爆发以来,严重危害着养猪业的发展,给我国养猪业造成了巨大的经
为了缓解干旱对烤烟生长发育带来的危害及其导致的经济损失,为解决会理县的干旱问题提供新的技术参考,于2014-2015年连续两年在四川省凉山州会理县采用随机区组设计,设置地膜
社会经济的高速发展和现代化程度的不断提高给人民群众的生活带来便利,与此同时过度发展给我们赖以生存的自然环境带来极大的压力。其中,水资源污染问题在中国的坏境问题中显
在数目庞大的二茂铁配合物之中,将二茂铁基团作为药效基团与具有生物活性的氮杂环基团相结合,形成的二茂铁氮杂环配合物在制备新型抗癌药物前驱体方面具有重大意义。咪唑和吡
正交异性钢桥面板向来以稳定控制设计,然而已有的关于钢桥面板的稳定计算研究要么限于弹性稳定,要么未能全面考虑诸多影响因素,未能很好地与工程实际相符。结合当下钢材的高