论文部分内容阅读
基因芯片是近年发展起来的自动化的、高通量的研究生物学问题的一门新技术。它综合了多学科的成就,在大规模研究基因功能的领域中已经有了卓有成效的应用。随着越来越多的针对不同生物学问题的基因芯片实验的完成,基因芯片数据呈爆炸性增长,各种各样的分析方法也随之出现。对大量产生的数据如何有效地分析,成为生物信息学研究中的一个热点。
针对基因芯片数据高噪声、高维数、小样品的特点,本文先对拟南芥幼苗基因芯片数据(22746个基因,58个样品)进行3种相关预处理,减弱了数据噪声;对预处理后的数据进行主成分分析,消除了共表达基因的重叠信息,再对58个样品进行系统聚类;聚类结果显示58个样品不能完全按照4种不同外界处理(正常条件(CK)、紫外线照射(UVB)、盐处理(SL)和干旱(DR))分成4类。因此,在原来二维(样品维和基因维)的基础上增加一时间维,建立基因芯片数据的三维数据分析模型。数据模型显示,基因表达的变化受到时序和外界处理的交叉影响。这就造成了不同外界处理的样品在相同时间点聚在一起。使用基因维载荷大的基因对样品进行聚类,聚类结果有明显改进。
本文还研究了约束条件下选取主成分的偏最小二乘方法和选取基因的MAXR方法。