基于收缩典型相关分析的APA基因聚类和共表达网络研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:asdfasdf32111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多聚腺苷酸化(polyadenylation,poly(A))是真核生物中必需的细胞过程,DNA转录过程的终止位置称为poly(A)位点。如果一个基因具有多个poly(A)位点,前体mRNA会选择不同的位点剪切,产生多个mRNA,这些位点称为选择性多聚腺苷酸化(alternativepolyadenylation,APA)位点。研究发现哺乳动物或植物中超过70%的基因具有两个及以上的poly(A)位点,APA在mRNA稳定、细胞定位和翻译效率等许多方面起着重要作用。生物学研究中为了消除个体差异和技术测量误差的影响,常会进行多个生物学/技术重复实验和测量,充分利用重复测量之间的差异性有助于提高聚类分析的检测能力和准确性。聚类分析是一种从分子结构角度研究基因之间的相关性最常用的方法,传统的基因表达数据聚类方法如置信区间构建法,虽然可以计算重复测量间差异性的信息,但不适用于一个基因具有多个位点的数学模型。典型相关性分析(canonical correlation analysis,CCA)考虑到了每个基因内不同的位点或外显子(exon)等信息,却没有充分利用重复数据。本文基于CCA提出一种基因相关性分析算法——收缩典型相关分析(polyadenylation shrinkage canonical correlation analysis,PASCCA),它充分利用基因组重复测量数据间的差异性,将每个poly(A)位点视为独立特征计算基因间的相关性,能更好地对基因数据进行聚类,挖掘出基因和APA位点之间的动态调控机制信息,克服了传统基因表达数据聚类方法和CCA的局限性。PASCCA产生的加权距离矩阵可以用于下游聚类分析、网络构建和作为其他相似性或距离度量的替代方案。本文基于多种聚类评价指标对真实poly(A)位点数据和三种不同类型的仿真poly(A)位点数据进行验证,结果表明PASCCA比其他相关性方法如典型相关分析CCA、皮尔逊相关系数(pearson correlation coefficient,PCC)具有更强的鲁棒性和更优的性能。PASCCA也可用于构建APA特异性基因网络,本文基于多种网络拓扑性指标验证网络,结果显示PASCCA比CCA或PCC具有更高的模块性和平均聚类系数,同时也发现了一些具有生物意义的通路和基因模块,表明PASCCA用于基因共表达网络研究的可行性和高效性。
其他文献
目的:观察优质护理在冠心病慢性心力衰竭伴心律失常患者治疗中的应用效果。方法:选取62例冠心病慢性心力衰竭伴心律失常患者,根据入院顺序分为对照组和观察组,每组31例。对照组
建国后中国农民的形象经历了从个体劳动者到集体劳动者、从集体劳动者到独立生产经营者的系列转变。其演变实质,乃是劳动者与生产资料结合的方式在不同性质所有制和同一所有
随着大规模分布式电源的接入以及电力系统结构复杂程度的不断增加,T型或多端的分布式电厂(包括风电场)联络线越来越多的出现在电网框架结构中,使得电网系统的运行方式更为复
作者通过中国文学史教学与研究的实践经验和学理性思考,深切地认识到,复杂多元的文学史格局要求与之相适应的研究视角与考察方式。对于研究主体来说,文学史具有广阔无垠的空间,或
分析HART智能变送器通讯的几个要素,以及在现场使用时智能变送器不通讯的几个案例。