论文部分内容阅读
作为表观遗传学研究的主要内容之一,DNA甲基化是基因表达调控中重要的机制,与细胞分化、胚胎发育和免疫调节等多种生物学过程密切相关。现有的研究表明,甲基化的发生会使复杂疾病的抑制基因失去表达。因此,甲基化状态可用于癌症的抑癌基因特异性检测。新一代测序技术可以实现全基因组单个位点的甲基化测量,但是测序方法相对昂贵。采用计算的方法对DNA甲基化进行预测成为当前生物信息学研究的热点,也是对实验方法的重要补充。虽然许多传统的机器学习方法已经被用于预测DNA甲基化状态,但是传统方法很难有效提取特征信息,预测精度仍有待提高。这启发我们利用深度学习模型来深入研究这项课题。深度学习技术已经被证明是一种功能强大的自动特征提取技术,利用其多层的结构,可以有效地提取高度复杂和重要的非线性特征。本文运用了深度学习算法构建DNA甲基化状态的预测模型,主要内容如下:(1)利用深度神经网络(Deep Neural Network,DNN)模型预测DNA甲基化状态。基于构建的深度神经网络预测模型,本文系统比较了 DNA甲基化的六种特征组合的重要性,分析了它们对深度学习模型预测性能的影响。(2)利用残差网络(Residual Network,ResNet)模型和深度因子分解机(Factorization-Machine based Neural Network,DeepFM)模型预测 DNA 甲基化状态。使用DNA甲基化的全部特征信息,对这两种模型中的超参数利用交叉验证进行了多组实验,以选取最优的超参数来提升DNA甲基化状态的预测精度。(3)利用深度学习模型提取的抽象特征预测DNA甲基化状态。首先运用残差网络和深度神经网络模型作为特征提取器,多种机器学习模型作分类器,预测结果表明,极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型的预测效果最好。然后将两种深度学习模型提取的抽象特征分别与原始特征结合来进一步提高DNA甲基化状态的预测准确性。最后,本文结合深度神经网络提取的抽象特征数据与原始特征数据使DNA甲基化状态的预测准确率达到92.37%,优于现有的基于深度学习的预测方法。