论文部分内容阅读
棉花是重要的经济作物,其天然纤维的价值已经得到广泛的认可和利用,棉纤维作为世界纺织工业最主要的天然纤维原料的地位不可动摇。同时,棉花也是重要的油料作物,棉籽仁的含油量可达45%左右,且籽仁蛋白含量也非常高。棉籽作为榨油来源、蛋白质供给及饲料和食品,具有广阔的商业前景。唯一限制棉籽得到大规模利用的是存在棉籽中的棉酚毒素。棉酚对人及单胃动物有毒,长期服用会对健康产生严重影响。部分澳洲野生棉种具有一种“子叶色素腺体延缓形成”的性状,在这些棉种的休眠种子中不含腺体和棉酚,只有当种子吸胀萌发后,腺体和棉酚才陆续形成。这为低(无)酚棉育种带来了新的思路,甚至有可能从根本上解决棉籽大范围利用的命题。本实验以二倍体野生棉种澳洲棉和二倍体亚洲棉种江陵中棉为研究对象,选取了两棉种种子在萌发时期的三个不同阶段,利用第二代高通量测序仪Illumina HiSeq2000对其进行转录组测序。通过对测序原始数据进行预处理后,原始序列用TopHat2回贴到已经公布的D染色体组雷蒙德氏棉基因组图谱上,并根据有参考基因组的方法进行了初步分析,结果表明,由于染色体组之间存在的差异较大,序列回贴率不高,如果采取这种方法进行具体分析,有可能会丢失A染色体组和G染色体组特有的序列信息。故转而利用无参考基因组的分析方法进行继续分析。为了对两套不同染色体组进行全面分析,同时又要进行差异比较的双重目的,我们利用de novo从头拼接的方法,对A染色组、G染色体组以及A和G数据相结合的三套数据类型进行了转录组组装,分别得到226,184,213,257,275,434条转录本,为了去除转录组拼接产生的冗余及简化分析的目的,利用Perl语言对拼得的转录本进行精简提炼,最终得到了由61,048,47,908,72,985条转录本序列构成的三套转录组unigene集,其N50分别达到1,710bp,1,544bp,1,743bp。利用BLASTx和BLASTn注释原理,下载了三个公共蛋白数据库,分别是Uniprot/Swissprot.Uniprot/TrEMBL、NCBI-RefSeq (Plant),同时结合已经释放的D组雷蒙德氏棉序列预测基因及蛋白信息,对三套转录组unigene进行了全面BLAST注释,分别得到21,987,17,209,25,325条有BLAST结果的序列。进一步通过GO功能分类分析,分别得到18,766,14,552,21,374条有GO功能分类的序列。差异分析结果得到13,884个unigene在种子萌发过程中差异表达,通过对差异基因的表达模式聚类分析,结合GO富集分析,发现差异基因主要富集在次生代谢、催化结合、脂质代谢和碳水化合物代谢等方面。其中,我们发现,在与棉酚合成密切相关的萜类化合物代谢通路中,所有萜类合成的上游途径,即甲羟戊酸途径(MVA)和脱氧木酮糖磷酸/2C-甲基-4-磷酸-D-赤藓糖醇(DOXP/MEP)途径中大部分基因在澳洲棉和亚洲棉种子萌发阶段呈现截然相反的表达趋势,具体表现为在澳洲棉中上调表达而在亚洲棉中下调表达。为了进一步研究与腺体可能相关的转录因子,我们利用海1显性无腺体基因已经公布的精细定位结果,在D组雷蒙德氏棉序列中提取标记NAU2251和CIR362之间的序列并对其进行ORF预测,共得到137个ORF,对其进行BLAST注释,发现可能存在的转录因子29个,其中23个在转录组测序数据中具备同源序列。由于萜类合酶(TPS)在棉花次生代谢中起着至关重要的作用,并且鲜有除杜松烯合酶以外的其他棉花萜类合酶的报道,我们立足于D组公布的基因组信息,利用萜类合酶在Pfam平台的两个保守结构域种子文件PF01397和PF03936对D组公布的蛋白序列进行检索,共发现81个TPS相关序列。利用相同的方法对转录组unigene进行预测,得到12(A组)和9(G组)条TPS相关序列,同时下载了其他植物中报道的TPS基因序列,共198条序列进行了系统进化分析,并对棉花中TPS的亚家族进行全面的分类,结果发现除了裸子植物特有亚家族TPS-d外,其余亚家族均有序列分布。利用实时荧光定量PCR对转录组测序数据进行验证,结果显示高度的一致性。同时对澳洲棉和江陵中棉转录组中表达量最高的萜类合酶进行了组织特异表达研究,发现其在根部高表达,而在叶、茎、10DPA胚珠中表达量很低或不表达。本实验应用第二代高通量测序技术对澳洲野生棉种进行转录组高通量测序,以澳洲棉特殊腺体发育模式为研究对象,通过比较基因组学分析方法和系统的转录组分析手段,对A染色体组江陵中棉和G染色体组澳洲棉种子萌发时期的转录水平调控做了详细的阐述。该结果为研究棉花棉酚的合成及腺体的发育提供了有力的数据基础和证据。同时丰富了棉花的转录组测序信息量,对A染色体基因组序列和四倍体栽培棉基因组序列的拼接有辅助意义。