论文部分内容阅读
MicroRNAs(miRNAs)是一类具有调控功能的小分子非编码RNA。大量的研究证据表明,miRNAs的变异和失调是疾病发生的重要原因,因此识别与疾病相关的miRNAs成为近年来生物学研究领域的一个重要课题。然而,传统的生物实验方法成本高昂、验证周期长,且具有一定的盲目性,限制了miRNA与疾病关联研究的快速发展。随着miRNA-疾病相关性数据的逐渐积累,研究人员建立了一些高可信度的公开数据库,这些数据库提供了实验验证的miRNA-疾病关联和相关的生物学信息。研究者充分利用数据库数据,通过设计高效而精确的计算方法预测潜在的miRNA-疾病关联,弥补了生物实验方法的不足,降低了研究成本并缩短研究周期,为疾病研究提供了新的思路,为疾病诊疗提供了新的理论依据。目前大多数计算方法存在预测准确率不高、不能预测新的疾病、特征集质量不高、挖掘非线性高阶关联的深层特征比较困难等问题。针对这些不足,本文综合利用多种生物学数据构建高质量的相似性网络,提出了三种miRNA-疾病关联预测的计算模型,主要工作如下:(1)基于归纳超图学习的预测模型(HyperGraph for Predicting MiRNA-disease Association,HGMDA)。HGMDA将疾病相似性信息、miRNA相似性信息以及miRNA与疾病已知关联信息作为输入数据,并基于统计理论、图论及矩阵分解设计了表示miRNA-疾病关联的特征向量。为充分发挥超图结构更强的数据样本间非线性高阶关联的刻画和挖掘能力,HGMDA利用k-means算法,在构建miRNA-疾病关联超图结构基础上,基于归纳超图学习获得样本特征到关联得分的映射矩阵,继而利用此矩阵计算未知miRNA-疾病对的关联得分。(2)基于高维特征的超图预测模型(MiRNA-disease association prediction via hypergraph learning based on high-dimensionality features,HFHLMDA)。HFHLMDA针对相似性信息的稀疏性,首先利用高斯核相互作用谱补全数据,然后采用相似性信息作为特征向量并结合改进的超图学习模型学习映射矩阵。(3)基于多相似性的组合超图学习的预测模型(Multi-Similarity based Combinative Hypergraph Learning for Predicting MiRNA-disease Association,MSCHLMDA)。针对部分疾病或miRNA经重构后仍无相似性信息,MSCHLMDA采用最近邻的关联数据评估未知关联来增加高斯核相似性数据,继而整合多个miRNA、疾病的相似性数据,并在精简、有效的特征组成基础上设计组合超图学习算法,训练出更加全面的组合映射矩阵,从而使得预测结果更加准确。三种模型均通过留一交叉验证和5折交叉验证评估其有效性,并通过案例分析得到进一步证实,实验结果表明HGMDA等三种算法均可作为预测miRNA-疾病关联的有效工具。