论文部分内容阅读
随着基因组学和蛋白质组学相关技术的发展,产生了大量的表达谱和生物大分子相互作用的网络图谱信息。生物信息学为储存、处理、分析和整合这些海量数据提供了强有力的技术支持,而系统的研究基因之间的相互作用关系以及建立基因调控网络,已成为当前生物信息学研究的热点。 基因在转录过程中,转录因子(蛋白质)与DNA结合以激活基因的转录,而基因表达的产物可能是转录因子,它又能激活或抑制其它基因的转录。如此继续下去,就形成一个基因调控路径。所谓基因调控网络研究就是基于微阵列数据,结合生物信息学的方法和技术对基因之间表达关系的一种重建。微阵列技术的发展使得人们系统的、大规模的研究基因调控关系成为可能。 基因调控网络构建中最具挑战性的问题之一就是系统中包含的基因数目远远大于样本数,即小样本问题。许多比较成熟的算法不能处理小样本情况或者效果较差。小样本问题给基因调控网络算法的研究和实际应用带来了巨大的困难。 本文侧重小样本情况,主要研究了基于线性回归模型的基因调控网络重构算法,明确提出在线性回归模型中应该把基因调控网络的重构问题转化为的变量筛选问题来处理。本文结合基因调控网络的稀疏性特点,提出了基于稀疏度的变量筛选准则,并给出了小样本情况下偏F检验的替代方法。基于以上工作,本文创新性的采用了后向剔除筛选法,提出了基于偏最小二乘的后向筛选法;基于变量筛选准则,本文提出了基于LASSO的变量筛选法。基因间的调控关系是复杂的,有些时候用线性模型难以刻画。故本文进一步研究了非线性情况,提出了基于核偏最小二乘法的变量筛选法。 为了证明本文提出方法的有效性,本文在模拟数据和真实的基因表达数据上都进行了实验。模拟实验的结果表明本文提出的基于偏最小二乘的后向筛选法不管是在小样本还是在大样本条件下一直占据优势,是参与比较的多种算法中表现最好的方法;而本文提出的基于LASSO变量筛选法,仅在小样本条件表现的较好,这说明该算法更适合处理小样本情况。在接着的酵母菌表达数据实验中,本文提出的全部算法都较其他方法准确率高。由于贝叶斯方法一直被广泛的研究,因此最后本文和Banjo提供的动态贝叶斯方法做了比较,在该实验中本文提出的基于偏最小二乘的后向筛选法效果最好。