论文部分内容阅读
本文利用迄今为止最大规模、高密度的全基因组常染色体单核苷酸多态性数据,对分布在四个大洲(亚洲,欧洲,美洲和非洲)和太平洋岛屿的共40个群体的遗传结构作了比较系统的研究。结果发现人群遗传结构的产生和形成过程中,地理因素占据最主要的地位。亚洲、非洲和欧洲三个大洲的人群以及太平洋岛屿人群在聚类树上形成明显的分支。大洲内部的人群之间,也基本上按照地理分布形成相应的聚类分支。对于亚洲、非洲和欧洲三个大洲的人群来说,绝大部分的遗传变异来自群体内部(85.6%);大洲内部群体之间的遗传差异只占总体遗传差异很小的比例(1.2%);但大洲之间的人群的遗传差异还是有相对比较高的比例(13.2%)。考察遗传变异在东南亚的六大语系人群中的分布比例,同样,变异的主要来自于群体内部(95.76%),但与大洲之间的人群变异模式不一样的是,语系内的群体间的遗传差异所占的比例(3.22%)要大于语系间遗传差异所占的比例(1.02%),语系的划分布在一定程度上能得到遗传学证据的支持。然而,人群的遗传关系跟目前语言学研究得到结果不是一一对应的,比如与佤族同属南亚语系孟高棉语族的Kensiu和Jehai与佤族的遗传关系相对较远,而南岛语系马来语族的Bidayuh和Temuan却与佤族的遗传关系更接近一些。语系归属在语言学界存在争论的壮族和苗族,与汉族人之间的遗传关系比较密切,在聚类树上及MDS图上的位置相当接近;但AMOVA的分析结果表明,民族间的遗传差异还是要大于民族内地理群体间的差异。汉藏语系中的汉语族与藏缅语族人群,遗传关系非常密切,AMOVA的分析结果表明,变异的主要来自于群体内部(98.16%),语族内的群体间的遗传差异所占的比例(1.28%)要大于语族间遗传差异所占的比例(0.56%)。对亚洲四个国家15个人群的遗传结构分析结果表明,至少有9个可以识别的遗传亚结构存在,中国的壮族、苗族、佤族、基诺族、维吾尔族、汉族,马来西亚的Bidayuh、Temuan、Jehai、Kensiu都具有不同的遗传结构,彼此都可以明确区分;但是韩国人、日本人以及琉球岛人的遗传结构非常相似,往往不能区分彼此。汉族人(HAN)实际上存在很高的混合遗传成分,占优势的有两种成分,一种属于壮族的主要成分,一种属于韩国人、日本人等共有的主要遗传成分,并且两种成分在汉族人群中的比例相当,前者占30.9%,后者占34.4%。汉族人还有其他的遗传成分混合,苗族的主要成分在其中占12%。本文从"LD block"的角度,考察了11个人群的连锁不平衡在21号染色体上的分布状况。结果提示,连锁不平衡分布的差异是群体遗传结构的一个重要反映。非洲人群与非非洲人群的"LD block"分布有很大差异,可以看出由于人群历史的不同产生的明显分离。亚洲人群与欧洲人群也有较大的差异,亚洲人群的LD block整体上比欧洲人群更有优势,这表现在亚洲人群的block的平均长度以及最大长度都高于欧洲人群,block区域在染色体上的覆盖率也是亚洲人群高一些。亚洲人群中,南方少数民族苗族和佤族的LD block比其他人群都有优势,表现在苗族和佤族的block的平均长度以及最大长度都高于其他亚洲人群,block区域在染色体上的覆盖率也是苗族和佤族高一些。尽管没有改变总体的模式,位点频率对LD block的划分结果有不可忽略的影响。表现在block的数目减少,长度增加,染色体覆盖率降低。混合人群的LD block在所有情况下都比其可能的亲本群体,比如美国黑人相对于非洲黑人和欧洲白人,维吾尔族相对于欧洲人群和亚洲人群,block长度更短,染色体覆盖率更低。鉴于混合人群与隔离人群在人群历史、进化研究以及复杂疾病研究中的重要地位,本文对两个典型的混合人群,美国黑人、中国维吾尔族以及一个典型的隔离人群,萨摩亚人的遗传结构尤其是其特殊的连锁不平衡结构进行了细致的解析。美国黑人的遗传杂合度比一般人群杂合度要高,观察到的美国黑人的平均杂合度为0.311,非洲黑人为0.296,美国白人为0.290。遗传杂合度的增加是混合人群的一个典型特征。美国黑人个体混合程度变异很大,有的个体的染色体几乎全部来源于非洲黑人祖先群体,有的个体则具有不同程度的双亲群体成份。但没有发现染色体完全来源于欧洲白人的个体,至少在本文使用的样本是这样。美国黑人个体的染色体之间混合程度的相关性很强,在一条染色体上观察到的混合比例与其他染色体或整个基因组的混合比例是相当一致的,组内相关系数高达0.958。如果位点不经挑选,整体上看,美国黑人的连锁不平衡强度和模式与非洲黑人的几乎没有差别。然而,实际上美国黑人具有比其双亲群体延长的连锁不平衡。这种延长的连锁不平衡只有在富含祖先信息的位点(AIMs)中才能明显地观察到。通过大量位点地分析和筛选,结果表明f≥0.4是挑选信息位点的一个比较好的标准。连锁不平衡在美国黑人人群的增强和延伸主要发生在间距大于200kb的位点之间,并且LD水平局限在0.1<r~2<0.8范围。在间距小于200kb的位点之间,与其双亲群体相比,美国黑人的LD不占优势。"extended LD"是近期产生的混合人群的又一典型特点。不同混合程度的美国黑人个体对连锁不平衡有不同的影响。染色体完全来源于非洲黑人祖先群体的个体对"extended LD"的贡献很小,主要的贡献来自于那些具有显著的双方祖先群体遗传成份的个体。中国新疆和田维吾尔族群体无疑是一个含有欧洲白人遗传成分和亚洲人遗传成分的混合人群。根据22条常染色体SNP数据的估计,其中欧洲白人成份占52.1%,亚洲人成份占47.9%。因此和田维吾尔族在遗传上更接近欧洲白人。维吾尔族的遗传杂合度比美国白人和亚洲人的杂合度略高。观察到的维吾尔族的位点平均杂合度为0.309,美国白人为0.301,北京汉族为0.284。遗传杂合度的增加也是支持维吾尔族是混合人群的一个证据。与在美国黑人群体中看到的情况相比,维吾尔族个体混合程度变异较小,从22条常染色体的数据估计出的结果是,最小值44.4%,最大值61.8%。根据从常染色体SNP数据得到的重组率,在维吾尔族群体是一次混合事件产生的假设前提下,估计维吾尔族的混合发生在92个世代之前,或者1840年以前。这个时间比人类学方面的资料显示的时间提前了很多。根据从21号染色体的SNP数据得到的结果,与美国白人群体(CEU)以及北京汉族群体(CHB)相比,在r~2≥0.5的水平,维吾尔族的连锁不平衡完全不占优势,即使位点经过挑选也是这样,低水平的连锁不平衡也只有微弱的优势。与美国黑人群体分析中观察到的结果一致,r~2≥0.8的连锁不平衡延伸不超过200kb。萨摩亚人群具有更多的低频SNP位点,位点平均杂合度比普通人群低,这个结果符合隔离人群的特征。在"走出非洲"假说的前提下,萨摩亚人群位于"走出非洲"路线的末端,与欧洲人群的遗传距离较远。本文的分析结果表明萨摩亚人群混有欧洲白人成分的可能性很小。尽管长的连锁不平衡具有相当的吸引力,但是在萨摩亚人群中,连锁不平衡的增强主要发生在200kb以内的距离范围,这一点刚好与前文讨论的混合人群如美国黑人的情况相反。连锁不平衡受位点频率的很大影响,至少在用r~2度量的时候,萨摩亚人群的连锁不平衡在高频位点(MAF≥0.15)比普通人群有更加明显的提高。对于高频位点(MAF≥0.15)来讲,在200kb的范围内,强的连锁不平衡(r~2≥0.8)总是Samoan的比例最高,平均来讲,是CEU的2.66倍,是CHB的2.33倍;稍弱的连锁不平衡(1/3≤r~2<0.5)在Samoan中的增强发生在30kb以外的距离范围;更弱的连锁不平衡(0.1≤r~2<1/3)在Samoan中的增强发生在50kb以外的范围,这个水平的连锁不平衡也不比普通人群延伸得更远,或者说普通人群和Samoan一样延伸到很远的距离。