论文部分内容阅读
多聚腺苷酸化(polyadenylation,poly(A))是真核生物中必需的细胞过程,DNA转录过程的终止位置称为poly(A)位点。如果一个基因具有多个poly(A)位点,前体mRNA会选择不同的位点剪切,产生多个mRNA,这些位点称为选择性多聚腺苷酸化(alternativepolyadenylation,APA)位点。研究发现哺乳动物或植物中超过70%的基因具有两个及以上的poly(A)位点,APA在mRNA稳定、细胞定位和翻译效率等许多方面起着重要作用。生物学研究中为了消除个体差异和技术测量误差的影响,常会进行多个生物学/技术重复实验和测量,充分利用重复测量之间的差异性有助于提高聚类分析的检测能力和准确性。聚类分析是一种从分子结构角度研究基因之间的相关性最常用的方法,传统的基因表达数据聚类方法如置信区间构建法,虽然可以计算重复测量间差异性的信息,但不适用于一个基因具有多个位点的数学模型。典型相关性分析(canonical correlation analysis,CCA)考虑到了每个基因内不同的位点或外显子(exon)等信息,却没有充分利用重复数据。本文基于CCA提出一种基因相关性分析算法——收缩典型相关分析(polyadenylation shrinkage canonical correlation analysis,PASCCA),它充分利用基因组重复测量数据间的差异性,将每个poly(A)位点视为独立特征计算基因间的相关性,能更好地对基因数据进行聚类,挖掘出基因和APA位点之间的动态调控机制信息,克服了传统基因表达数据聚类方法和CCA的局限性。PASCCA产生的加权距离矩阵可以用于下游聚类分析、网络构建和作为其他相似性或距离度量的替代方案。本文基于多种聚类评价指标对真实poly(A)位点数据和三种不同类型的仿真poly(A)位点数据进行验证,结果表明PASCCA比其他相关性方法如典型相关分析CCA、皮尔逊相关系数(pearson correlation coefficient,PCC)具有更强的鲁棒性和更优的性能。PASCCA也可用于构建APA特异性基因网络,本文基于多种网络拓扑性指标验证网络,结果显示PASCCA比CCA或PCC具有更高的模块性和平均聚类系数,同时也发现了一些具有生物意义的通路和基因模块,表明PASCCA用于基因共表达网络研究的可行性和高效性。