论文部分内容阅读
组蛋白修饰指的是在组蛋白在相关酶的作用下发生甲基化、乙酰化、泛素化、磷酸化等翻译后修饰的一种表观遗传调控方式。最近研究发现其在转录激活/抑制、基因沉默和染色质结构调控等重要生物学过程中发挥着重要作用。随着高通量测序技术尤其是ChIP-Seq的快速发展,这种技术越来越多被用于探究蛋白和DNA互作机制。近年来已经有超过20种以上的拟南芥组蛋白修饰的功能被相关研究所论述。例如研究发现组蛋白的乙酰化/去乙酰化就和转录的激活/抑制有关,同时组蛋白的磷酸化在有丝分裂、细胞凋亡、DNA损伤修复中发挥重要作用。不过由于组蛋白修饰的调控机制复杂,细胞中的调控往往是通过多种组蛋白修饰协同或者拮抗来组合发挥调控作用,这给相关的组蛋白修饰调控机制的研究带来了很大困难。同时和人类中的研究相比,公共数据库中拟南芥中的组蛋白修饰的数据量相对较少,并且缺乏一个可供查询和功能分析综合性数据库。这就造成了研究人员难以从已经发表的数据中获得有价值的参考信息。另外我们发现目前的很多公共数据库中的拟南芥组蛋白修饰的测序数据存在着一些共性的问题:1很多ChIP测序结果数据质量不佳,并且很多数据缺乏进一步的生物信息分析;2在不同ChIP实验中的同种组蛋白修饰结果存在较大差异,无法给以后的的相关研究提供切实可信的参考;3对于已经鉴定出的组蛋白结合位点缺乏进一步的注释和功能分析。为了解决上述问题,同时也为了更系统和全面地分析拟南芥组蛋白修饰调控机制,我们从NCBI的GEO数据库中下载了超过300个野生型拟南芥ChIP-Seq样本。在去除低质量测序和无法鉴定出结合位点的样本之后,我们总共获得了涉及24种组蛋白修饰、4种组织类型的140个组蛋白修饰样本用于下一步分析。同时,为了解决在不同研究中组蛋白修饰分析标准不一的问题,我们综合近五年组蛋白修饰研究,重新构建了一套严格可信的分析流程用于组蛋白修饰位点的鉴定和注释。最终,我们发现在同种组蛋白修饰中不同样本的结果差异很大,保守的结合位点所占的比例不到50%。这样的差异显然无法给以后的相关研究提供一个严格可信的参考结合位点,同时这也从侧面说明提供一个高置信度的组蛋白修饰结果十分重要。鉴于这种情况,我们一方面鉴定了在这些样本中相对保守的结合位点,另一方面,我们也鉴定了由于组织特异性而差异化表达的结合位点用于相关研究参考。在获得这些结合位点的位置信息之后,我们对这些位置信息进行注释以探究它们和基因功能元件之间的相互关系,进而揭示这些组蛋白修饰潜在的调控功能。根据我们对这些保守组蛋白修饰结合位点的注释来看,这些结合位点往往落在启动子和转录起始位点附近,暗示了这些结合位点可能在转录调控中起着重要作用。最后,我们还对这些结合位点附近的基因进行了富集分析,发现不同的组蛋白修饰结合位点附近的基因在很多生物学功能上存在着一定的相似性。这也印证了多种组蛋白修饰往往组合在一起调控基因表达的论点。综上,为了探究拟南芥组蛋白修饰中保守结合位点的序列特征和潜在的调控机制,我们构建了一套严格可信的分析流程,获得了24种组蛋白的保守位点位置和其附近基因的富集信息。我们的分析结果将为以后拟南芥组蛋白修饰的相关研究提供一个保守、可信的参考,也为今后拟南芥组蛋白修饰数据库的构建打下一个坚实的基础。我们希望通过我们的研究可以为相关植物组蛋白修饰功能研究提供新的思路和方向。