论文部分内容阅读
精确的单体型频率可为疾病基因的定位、影响标记间相关性因素的发现以及人类进化、复杂疾病中两个或更多基因间的顺式相互作用提供重要信息和依据。本文将核心家庭中用最大期望(Expectation Maximization,EM)算法估计单体型频率的方法推广到一般家系结构中。具体内容如下: 家系中的每个非始祖个体都是一个确定的三元家庭的后代,以该成员所在三元家庭为单位,根据孩子在每个位点上的两个等位基因一个来自父亲,一个来自母亲,推断家系中每个个体的缺失等位基因和有序基因型。 基于每个核心家庭中始祖个数的多少,将家系中的核心家庭分为三类:始祖家庭、半始祖家庭和非始祖家庭。家系中的非始祖家庭仅用于推断家系成员的单体型结构。本文对家系中的始祖家庭和半始祖家庭用EM算法得到家系中估计单体型频率的迭代公式,给出了在缺失未定相的家系数据中估计家系单体型频率的EM算法。 为了评估家系中估计单体型频率的EM算法的准确性,我们基于真实的Hutterite家系结构和随机家系结构分别产生了1000个仿真家系数据。针对这些仿真家系数据,分别比较了Naive方法、Merlin方法、仅在核心家庭使用EM算法和本文的家系数据中EM算法估计单体型频率的标准差和均方误差。大量仿真结果表明:我们在家系中估计单体型频率的EM算法准确性要优于Naive方法、Merlin方法和核心家庭中EM算法估计单体型频率的准确性。