基于深度学习的全基因组DNA甲基化预测研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:nvllnvll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为表观遗传学研究的主要内容之一,DNA甲基化是基因表达调控中重要的机制,与细胞分化、胚胎发育和免疫调节等多种生物学过程密切相关。现有的研究表明,甲基化的发生会使复杂疾病的抑制基因失去表达。因此,甲基化状态可用于癌症的抑癌基因特异性检测。新一代测序技术可以实现全基因组单个位点的甲基化测量,但是测序方法相对昂贵。采用计算的方法对DNA甲基化进行预测成为当前生物信息学研究的热点,也是对实验方法的重要补充。虽然许多传统的机器学习方法已经被用于预测DNA甲基化状态,但是传统方法很难有效提取特征信息,预测精度仍有待提高。这启发我们利用深度学习模型来深入研究这项课题。深度学习技术已经被证明是一种功能强大的自动特征提取技术,利用其多层的结构,可以有效地提取高度复杂和重要的非线性特征。本文运用了深度学习算法构建DNA甲基化状态的预测模型,主要内容如下:(1)利用深度神经网络(Deep Neural Network,DNN)模型预测DNA甲基化状态。基于构建的深度神经网络预测模型,本文系统比较了 DNA甲基化的六种特征组合的重要性,分析了它们对深度学习模型预测性能的影响。(2)利用残差网络(Residual Network,ResNet)模型和深度因子分解机(Factorization-Machine based Neural Network,DeepFM)模型预测 DNA 甲基化状态。使用DNA甲基化的全部特征信息,对这两种模型中的超参数利用交叉验证进行了多组实验,以选取最优的超参数来提升DNA甲基化状态的预测精度。(3)利用深度学习模型提取的抽象特征预测DNA甲基化状态。首先运用残差网络和深度神经网络模型作为特征提取器,多种机器学习模型作分类器,预测结果表明,极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型的预测效果最好。然后将两种深度学习模型提取的抽象特征分别与原始特征结合来进一步提高DNA甲基化状态的预测准确性。最后,本文结合深度神经网络提取的抽象特征数据与原始特征数据使DNA甲基化状态的预测准确率达到92.37%,优于现有的基于深度学习的预测方法。
其他文献
以旅游业为代表的信息密集型产业,在移动互联时代取得了突破性地发展,与此同时用户日常获取信息的渠道逐渐从PC端转移到移动端,用户也从互联网信息的被动接受者渐渐转变为互联网信息的主动生产者。用户生成内容即User Generated Content模式,简称UGC模式的发展正顺应了用户的需求,依靠丰富的用户生成内容为核心产品的UGC类旅游移动应用(Application,简称App)成为了当下人们出游
新时代新形势新任务,党的建设又走上了新的征程,为此党中央针对党的建设提出了新的要求,提出了创新基层党建工作这一重大战略任务,要求基层党建干部在全面从严治党这一新时期
进入20世纪以来,随着全球化的不断发展,我国的经济形势逐渐增强,互联网的发展十分迅速,对人们的生活带来了极大的改变。同时,我国通过完善网络基础设施建设、建立健全国家政
本文研究了乳酸杆菌发酵大豆糖蜜对罗非鱼生长性能、免疫及肠道菌群的影响,并确定发酵大豆糖蜜在罗非鱼饲料中适宜用量。本试验将乳酸菌发酵后的大豆糖蜜添加至饲料中,以800
目的:针对分娩球联合自由体位和常规护理在产妇助产护理中的应用效果与满意度进行分析。方法:选取2018年10月至2020年3月在我院生产的80例产妇作为本次研究对象,按照随机数字
为了研究氯氧甲苯咪唑(econazole)诱导鼠粒单核白血病细胞WEHI-3凋亡的机制,利用Annexin-Ⅴ/PI双染实验测定细胞凋亡,Fura-2荧光负荷技术检测细胞内游离钙离子浓度([Ca2+]i),
“城市”作为人类赖以生存的生活空间,同时具备地理和社会意义。品牌形象是在社会意义理念中,融合事物的自然禀赋、历史文化沉淀、人文优势等要素的结晶,并以科学、和谐的艺