论文部分内容阅读
在完成人类基因组计划后,人们发现非编码蛋白质编码区远远大于蛋白质编码区,而人体内大量的非编码RNA的源泉就是这些非编码序列,它们在人体中扮演着调控者的角色,与细胞分化、凋亡以及癌变等方面有着重要关系.对miRNA生物学功能及其机制的研究将影响或辐射到遗传学、生理学、免疫学、细胞生物学等多个基础研究领域,成为这些学科新的增长点,推动整个生命科学的发展.随着生物数据的积累和数据挖掘的发展,为计算方法研究miRNA功能及其与疾病的关联关系提供了新的契机.
数据挖掘是应用组学数据研究miRNA(microRNA)功能及其与疾病关联关系的有力工具之一.本文以miRNA作为研究对象,首先通过数据挖掘获得miRNA功能相似性,并进而分析miRNA之间的协同作用,最后,利用协作预测、半监督学习、流形假设等机器学习方法分析miRNA与疾病之间的关联关系,对揭示复杂疾病发病机理有着重要意义.本文从融合多类型生物数据出发,主要研究工作如下:
(1)现有的基于最佳匹配平均算法的miRNA功能相似性测量方法往往难以获得理想的计算结果,因此,本文全面考虑了疾病语义相似性网络的拓扑结构,提出了一种利用已知miRNA-疾病链接的基于路径的miRNA功能相似性测量方法,MFSP(MiRNAFunctionalSimilaritybasedonPath).该方法首先将疾病MeSH描述符的层次结构转换为疾病特征向量;然后,利用余弦相似性计算疾病语义相似性并构建疾病相似性网络;再基于不同跳转次数获得疾病之间的路径权重和,并基于疾病集合之间的路径权重和来构建miRNA-miRNA路径矩阵;最后利用miRNA-miRNA路径矩阵来获得miRNA功能相似性.与现有的miRNA功能相似性测量算法相比,MFSP在家族内和簇内miRNA对中能够获得更高的平均功能相似性,同时,其家族间和簇间的平均功能相似性更小.
(2)现有的miRNA功能相似性测量算法往往是采用基于成对的计算方式,其计算结果受疾病语义相似性影响.因此,本文提出了一种利用已知miRNA-疾病关系的基于成组的miRNA功能相似性测量算法,GMFS(Group-wisemethodforMiRNAFunctionalSimilarity).首先,利用疾病MeSH描述符计算得到疾病信息量,用于描述疾病特异性;然后,基于疾病层次结构和疾病信息量获得疾病特征向量;最后,结合miRNA-疾病链接和疾病特征向量测量miRNA功能相似性.与现有的miRNA功能相似性测量算法对比,GMFS不受疾病语义相似性计算结果影响.通过网络分析也验证了GMFS在测量miRNA功能相似性方面的有效性.
(3)现有的疾病相关miRNA预测算法利用稀疏的已知miRNA-疾病关系往往难以获得优异的预测性能,因此,本文提出一种基于直推式学习的疾病相关miRNA协作预测方法,CPTL(CollectivePredictionbasedonTransductiveLearning).该方法首先结合miRNA相似性、疾病相似性和已验证的疾病-miRNA链接构建miRNA-疾病异质信息网络;然后,不断迭代地计算相关分数和更新网络,直至收敛;最后,基于最后的网络结构计算得到的相关分数来衡量miRNA与疾病之间的关联程度.在HMDD数据集上,CPTL相对于其它方法能够获得更高的AUC、准确率、召回率等.此外,在乳腺癌上的研究案例进一步说明了CPTL的预测能力.
(4)现有的疾病相关miRNAs计算方法难以合理地结合不同网络空间来处理没有已知相关miRNAs的疾病或同时预测所有疾病相关的miRNAs,因此,本文提出一种基于图正则化框架的疾病相关miRNAs半监督预测方法,MDAGRF(MiRNA-DiseaseAssociationbasedonGraphRegularizationFramework).该方法首先结合miRNA簇信息和家族信息构建miRNA-疾病异质信息网络;然后,结合同质空间和异质空间利用图正则化框架预测疾病相关miRNAs.在五折交叉验证和全局留一交叉模式下,MDAGRF比现有方法能够获得更高的AUC、AUPR等.此外,MDAGRF在进行重新预测实验中也能够获得更好的预测结果.
(5)现有疾病相关miRNA预测方法往往难以同时考虑靶基因信息和已知的miRNA-疾病链接,因此,本文提出一种结合靶基因信息的基于异质流形的疾病相关miRNAs预测方法,DMHM(Disease-relatedMiRNAsbasedonHeterogeneousManifold).该方法首先利用MeSH数据集中疾病有向无环图计算疾病语义相似性;然后,结合疾病语义相似性、疾病-基因链接、疾病-miRNA链接、基因-基因链接和miRNA-基因链接构建miRNA-基因-疾病异质信息网络;最后,DMHM基于异质流形识别新的疾病与miRNA之间的关系.基于HMDD数据集,DMHM在miRNA-疾病关系推断方面能够获得更好的识别结果.此外,五折交叉验证验证了DMHM预测疾病相关基因的能力.
数据挖掘是应用组学数据研究miRNA(microRNA)功能及其与疾病关联关系的有力工具之一.本文以miRNA作为研究对象,首先通过数据挖掘获得miRNA功能相似性,并进而分析miRNA之间的协同作用,最后,利用协作预测、半监督学习、流形假设等机器学习方法分析miRNA与疾病之间的关联关系,对揭示复杂疾病发病机理有着重要意义.本文从融合多类型生物数据出发,主要研究工作如下:
(1)现有的基于最佳匹配平均算法的miRNA功能相似性测量方法往往难以获得理想的计算结果,因此,本文全面考虑了疾病语义相似性网络的拓扑结构,提出了一种利用已知miRNA-疾病链接的基于路径的miRNA功能相似性测量方法,MFSP(MiRNAFunctionalSimilaritybasedonPath).该方法首先将疾病MeSH描述符的层次结构转换为疾病特征向量;然后,利用余弦相似性计算疾病语义相似性并构建疾病相似性网络;再基于不同跳转次数获得疾病之间的路径权重和,并基于疾病集合之间的路径权重和来构建miRNA-miRNA路径矩阵;最后利用miRNA-miRNA路径矩阵来获得miRNA功能相似性.与现有的miRNA功能相似性测量算法相比,MFSP在家族内和簇内miRNA对中能够获得更高的平均功能相似性,同时,其家族间和簇间的平均功能相似性更小.
(2)现有的miRNA功能相似性测量算法往往是采用基于成对的计算方式,其计算结果受疾病语义相似性影响.因此,本文提出了一种利用已知miRNA-疾病关系的基于成组的miRNA功能相似性测量算法,GMFS(Group-wisemethodforMiRNAFunctionalSimilarity).首先,利用疾病MeSH描述符计算得到疾病信息量,用于描述疾病特异性;然后,基于疾病层次结构和疾病信息量获得疾病特征向量;最后,结合miRNA-疾病链接和疾病特征向量测量miRNA功能相似性.与现有的miRNA功能相似性测量算法对比,GMFS不受疾病语义相似性计算结果影响.通过网络分析也验证了GMFS在测量miRNA功能相似性方面的有效性.
(3)现有的疾病相关miRNA预测算法利用稀疏的已知miRNA-疾病关系往往难以获得优异的预测性能,因此,本文提出一种基于直推式学习的疾病相关miRNA协作预测方法,CPTL(CollectivePredictionbasedonTransductiveLearning).该方法首先结合miRNA相似性、疾病相似性和已验证的疾病-miRNA链接构建miRNA-疾病异质信息网络;然后,不断迭代地计算相关分数和更新网络,直至收敛;最后,基于最后的网络结构计算得到的相关分数来衡量miRNA与疾病之间的关联程度.在HMDD数据集上,CPTL相对于其它方法能够获得更高的AUC、准确率、召回率等.此外,在乳腺癌上的研究案例进一步说明了CPTL的预测能力.
(4)现有的疾病相关miRNAs计算方法难以合理地结合不同网络空间来处理没有已知相关miRNAs的疾病或同时预测所有疾病相关的miRNAs,因此,本文提出一种基于图正则化框架的疾病相关miRNAs半监督预测方法,MDAGRF(MiRNA-DiseaseAssociationbasedonGraphRegularizationFramework).该方法首先结合miRNA簇信息和家族信息构建miRNA-疾病异质信息网络;然后,结合同质空间和异质空间利用图正则化框架预测疾病相关miRNAs.在五折交叉验证和全局留一交叉模式下,MDAGRF比现有方法能够获得更高的AUC、AUPR等.此外,MDAGRF在进行重新预测实验中也能够获得更好的预测结果.
(5)现有疾病相关miRNA预测方法往往难以同时考虑靶基因信息和已知的miRNA-疾病链接,因此,本文提出一种结合靶基因信息的基于异质流形的疾病相关miRNAs预测方法,DMHM(Disease-relatedMiRNAsbasedonHeterogeneousManifold).该方法首先利用MeSH数据集中疾病有向无环图计算疾病语义相似性;然后,结合疾病语义相似性、疾病-基因链接、疾病-miRNA链接、基因-基因链接和miRNA-基因链接构建miRNA-基因-疾病异质信息网络;最后,DMHM基于异质流形识别新的疾病与miRNA之间的关系.基于HMDD数据集,DMHM在miRNA-疾病关系推断方面能够获得更好的识别结果.此外,五折交叉验证验证了DMHM预测疾病相关基因的能力.