论文部分内容阅读
随着后基因组时代的来临,人们迫切希望了解众多基因的功能及基因之间是如何相互作用的。微阵列技术的运用,为了解基因之间的相互关系及功能提供了可能。从大量的微阵列数据中挖掘隐含的生物学信息,通过寻找基因之间的功能模块,由已知功能的基因推测未知功能的基因,成为当前研究的热点。在本文中,我们利用随机矩阵理论方法结合层次聚类方法对肺癌基因微阵列数据进行了研究。首先采用K最近邻方法对肺癌微阵列数据中的缺失值进行处理;然后通过设置一系列的去噪参数q,利用随机矩阵理论的两条假设及标准误差的方法,确定肺癌基因表达数据中的去噪点;最后分别用模块方法和层次聚类方法处理肺癌基因表达数据。发现用模块方法处理肺癌基因时,在去噪点处肺癌基因模块明显呈现,验证了基于随机矩阵理论方法识别生物网络功能模块的普适性;用层次聚类方法对肺癌基因表达数据进行聚类分析,得到了代表基因相互调控关系的层次树图。通过比较模块方法及层次聚类方法所得到结果的异同,发现由随机矩阵理论结合层次聚类方法构建得到的基因层次树图同随机矩阵理论结合模块方法构建得到的基因模块相似程度达到了97%,且随机矩阵理论结合层次聚类方法得到的层次树图不仅能给出模块,还能给出模块间的关联强度,能更加有效地识别出基因之间的相互调控关系。研究表明,随机矩阵理论结合层次聚类方法是一种有效的识别基因网络的新方法。接下来我们分析了由随机矩阵理论方法结合层次聚类方法得到的基因模块的功能,我们将得到的树图模块中的基因跟已知实验结果进行对照,并对未有实验参照的基因功能进行预测。验证了模块中已知功能的基因所调控的生物信息是归属为一类的,并发现肺癌的产生和发展与细胞的增殖分化、免疫响应、酶的活化等功能异常有密切的关系。