论文部分内容阅读
背景DNA甲基化是表观遗传学的一种重要机制,在调节基因复制和蛋白质表达中具有重要作用。大部分DNA甲基化发生在鸟嘌呤核苷酸或Cp G位点之前的胞嘧啶上。Cp G岛是哺乳动物基因组中胞嘧啶鸟嘌呤二核苷酸富集区。大多数基因启动子位于Cp G岛内,特别是管家基因的启动子通常嵌入Cp G岛。故了解Cp G岛的分布情况对于进一步研究HBV DNA甲基化及HBV的生物学特性尤为重要。由于HBV的DNA聚合酶缺乏校对功能,HBV DNA的变异率较大。目前有研究将HBV DNA分为A-J共10个基因型,每个基因型又被分为数个基因亚型。已得到公认的有3个传统Cp G岛:Ⅰ,Ⅱ,Ⅲ,近期有学者发现了3个新的Cp G岛,命名为Ⅳ,Ⅴ,Ⅵ,并分析了一些基因型病毒株中Cp G岛Ⅰ~Ⅵ的分布情况。而由于各病毒株的DNA的变异率较大,病毒株的Cp G岛分布情况可能并不能更准确地反应该基因型的Cp G岛分布的一般情况,更无法反应出各基因亚型Cp G岛的特点。该研究的目的就是利用大样本建立HBV DNA各基因型、基因亚型的参照序列,分析参照序列及其病毒株中Cp G岛的分布情况。方法从Gen Bank上搜索HBV DNA的A-H基因型的全基因序列,选择全基因序列长度在3100至3300个碱基的病毒株。以公开发表论文中的HBV DNA A-H基因型及部分亚型的参照序列为参照,利用MEGA7软件,对各基因型的病毒株进行全基因序列多重比对,建立进化树,进行系统发育和分子进化分析,核实及重新归类每一个病毒株的基因型或亚型。对于某一基因型内病毒株数量较多的,在进化树中分支较明显的,我们进一步对其进行亚型的分类。然后利用Vector NTI Advance11.5软件的Align X组件分别对每个基因型或亚型的所有病毒株进行多序列多重比对,建立每个基因型或基因亚型的一致序列,做为其参照序列。用Meth Primer和Cp G Plot两种方法计算每一个参照序列,以及各基因亚型代表病毒株全基因序列的Cp G岛。分析各基因型参照序列之间的Cp G岛的差异、同一基因型的不同亚型参照序列的Cp G岛的差异,以及同一亚型内各代表性病毒株Cp G岛的分布情况。对各基因亚型里是否含有Cp G岛Ⅰ及是否含有新Cp G岛病毒株数量的构成情况,以及各基因亚型中分别含有Cp G岛Ⅰ~Ⅲ及新岛的病毒株数量的构成情况,利用SPSS 16.0软件进行卡方检验,分别对各基因型不同亚型病毒株之间Cp G岛Ⅰ,Ⅱ和Ⅲ的长度、起点及终点位置,利用SPSS 16.0软件进行非参数检验,了解HBV各基因型不同亚型病毒株之间的Cp G岛分布是否有差异,检验水准P值设定为0.05。结果我们从下载的病毒株中筛选了HBV A-H基因型的3037个全基因序列,A433株,B 512株,C 924株,D 785株,E 198株,F 135株,G 28株,H 22株。利用这些病毒株建立了A-H基因型的28个亚型的参照序列,B,C,F和H基因型参照序列的长度均为3215 bp,A,D,E和G的长度在3182-3248bp。我们计算了28个亚型参照序列及其939个代表性病毒株的所有Cp G岛。28个参照序列各拥有2-3个Cp G岛,B,D,E的所有亚型及A1,A2,C6亚型的共17个参照序列含有Ⅰ,Ⅱ,Ⅲ三个常规Cp G岛,A3,A5,C1,C2和C5基因亚型,以及F,G,H基因型的共11个参照序列均缺少Cp G岛Ⅰ,仅F4亚型的参照序列含有新发现的Cp G岛:Cp G岛Ⅴ。939个代表性病毒株中每株含有Cp G岛1-5个,含有Cp G岛Ⅰ~Ⅵ的病毒株数分别为515,939,938,65,47,8株,各岛长度的中位数分别为102,439,157,112,104,105。其中有454株仅含有三个常规Cp G岛:Ⅰ~Ⅲ,其在各基因型中的分布分别为A 81,B 124,C 24,D 183,E 40,F 0,G 2,H 0;423株缺少Cp G岛Ⅰ,主要集中在C,F,G和H基因型中;117株含有新发现的Cp G岛Ⅳ,Ⅴ,Ⅵ共120个,以Cp G岛Ⅳ和Ⅴ为主,主要集中在B,C,D和F基因型中;有1株仅含一个Cp G岛:Ⅱ,366株仅含有Cp G岛Ⅱ和Ⅲ,他们既没有Cp G岛Ⅰ也没有新Cp G岛。Cp G岛Ⅰ,Ⅱ和Ⅳ均被长度不等的非Cp G富集区所隔断,以Cp G岛Ⅱ多见。同一基因的各基因亚型是否含有Cp G岛Ⅰ及是否含有新Cp G岛病毒株数量的构成情况具有显著差异(P<0.05),部分基因型的不同亚型分别含有Cp G岛Ⅰ,Ⅱ,Ⅲ及新岛的病毒株数量的构成情况具有显著差异(A、C、F基因型的P<0.05,B、D基因型的P>0.05),各基因型不同亚型病毒株之间Cp G岛Ⅰ、Ⅱ和Ⅲ的位置均具有显著差异(P<0.05),而C基因型的Cp G岛Ⅰ是个例外(P>0.05)。结论本研究建立了28个HBV基因亚型参照序列,为进一步研究各基因(亚)型的生物学特性提供了可靠的材料和依据。不同亚型参照序列的Cp G岛分布情况具有明显差异,而相同亚型病毒株之间的Cp G岛分布具有部分共性。