论文部分内容阅读
生物网络推理借助有效量测数据对生物系统进行计算建模,既能辅助人们理解细胞活动和基因调控机制,也能对工程化构建合成基因网络具有指导作用,因此网络推理始终是系统生物学的研究热点和难点。在后基因组时代,得益于组学数据量测技术的高速发展,生物网络的重构成为了可能。仅凭先验信息和经验不足以建立准确数学模型,需要精度和效率均符合要求的重构方法,机器学习的特征选择方法在基因网络重构中逐步体现出优势。对于基因调控网络而言,建模重构主要包括结构推理和参数估计,本文对基因网络重构的研究工作,主要包括:1)线性模型由于其简单易求解的特性,在处理小规模的基因表达数据集上仍然是一个较好的选择。在线性模型的.假设下,.使用支持向量机回归的方法进行特.征选择,重构出整个基因调控网络,相较于基于奇异值分解的方法提高了准确率。针对基因网络对象,使用对应的时序数据集进行回归建模分析,结果验证了算法的有效性和优势。2)考虑到基因调控网络的非线性,基于树回归的特征选择算法在处理非线性问题具有优势,并且也已经取得了较好的效果。不同的基于树回归的特征选择算法有着不同的偏倚,本文在使用梯度提升树进行GRN推理的基础上,进一步的运用加权融合机制整合基于随机森林的特征选择算法,得到最终的基因调控网络结构。鉴于无监督问题中权重选择需要考虑到推理结果的可信度,本文提出了结合先验知识的加权投票策略,在DREAM4数据集上对比单个模型所得结果和平均权重融合策略所得结果,验证了提出方案的有效性。3)基于拓扑分析按照基因网络调控边的方向将基因网络分为多个层次,为解决微分方程模型中参数规模大的问题提供了很好的思路。对网络进行分层后,本章采取的层次化估计策略是首先对高优先层次节点的调控参数进行估计,下一层次估计是以上层调控参数为已知信息,逐步拓展到外围节点。采取差异化的估计策略有助于将原问题分解为多个层次的子问题进行求解,减少了计算规模,计算结果表明,层次化估计策略能够有效降低参数估计的误差指标,计算时间也显著降低。