MicroRNA的功能相似性及其与疾病关联关系计算方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:Nathan_YM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在完成人类基因组计划后,人们发现非编码蛋白质编码区远远大于蛋白质编码区,而人体内大量的非编码RNA的源泉就是这些非编码序列,它们在人体中扮演着调控者的角色,与细胞分化、凋亡以及癌变等方面有着重要关系.对miRNA生物学功能及其机制的研究将影响或辐射到遗传学、生理学、免疫学、细胞生物学等多个基础研究领域,成为这些学科新的增长点,推动整个生命科学的发展.随着生物数据的积累和数据挖掘的发展,为计算方法研究miRNA功能及其与疾病的关联关系提供了新的契机.
  数据挖掘是应用组学数据研究miRNA(microRNA)功能及其与疾病关联关系的有力工具之一.本文以miRNA作为研究对象,首先通过数据挖掘获得miRNA功能相似性,并进而分析miRNA之间的协同作用,最后,利用协作预测、半监督学习、流形假设等机器学习方法分析miRNA与疾病之间的关联关系,对揭示复杂疾病发病机理有着重要意义.本文从融合多类型生物数据出发,主要研究工作如下:
  (1)现有的基于最佳匹配平均算法的miRNA功能相似性测量方法往往难以获得理想的计算结果,因此,本文全面考虑了疾病语义相似性网络的拓扑结构,提出了一种利用已知miRNA-疾病链接的基于路径的miRNA功能相似性测量方法,MFSP(MiRNAFunctionalSimilaritybasedonPath).该方法首先将疾病MeSH描述符的层次结构转换为疾病特征向量;然后,利用余弦相似性计算疾病语义相似性并构建疾病相似性网络;再基于不同跳转次数获得疾病之间的路径权重和,并基于疾病集合之间的路径权重和来构建miRNA-miRNA路径矩阵;最后利用miRNA-miRNA路径矩阵来获得miRNA功能相似性.与现有的miRNA功能相似性测量算法相比,MFSP在家族内和簇内miRNA对中能够获得更高的平均功能相似性,同时,其家族间和簇间的平均功能相似性更小.
  (2)现有的miRNA功能相似性测量算法往往是采用基于成对的计算方式,其计算结果受疾病语义相似性影响.因此,本文提出了一种利用已知miRNA-疾病关系的基于成组的miRNA功能相似性测量算法,GMFS(Group-wisemethodforMiRNAFunctionalSimilarity).首先,利用疾病MeSH描述符计算得到疾病信息量,用于描述疾病特异性;然后,基于疾病层次结构和疾病信息量获得疾病特征向量;最后,结合miRNA-疾病链接和疾病特征向量测量miRNA功能相似性.与现有的miRNA功能相似性测量算法对比,GMFS不受疾病语义相似性计算结果影响.通过网络分析也验证了GMFS在测量miRNA功能相似性方面的有效性.
  (3)现有的疾病相关miRNA预测算法利用稀疏的已知miRNA-疾病关系往往难以获得优异的预测性能,因此,本文提出一种基于直推式学习的疾病相关miRNA协作预测方法,CPTL(CollectivePredictionbasedonTransductiveLearning).该方法首先结合miRNA相似性、疾病相似性和已验证的疾病-miRNA链接构建miRNA-疾病异质信息网络;然后,不断迭代地计算相关分数和更新网络,直至收敛;最后,基于最后的网络结构计算得到的相关分数来衡量miRNA与疾病之间的关联程度.在HMDD数据集上,CPTL相对于其它方法能够获得更高的AUC、准确率、召回率等.此外,在乳腺癌上的研究案例进一步说明了CPTL的预测能力.
  (4)现有的疾病相关miRNAs计算方法难以合理地结合不同网络空间来处理没有已知相关miRNAs的疾病或同时预测所有疾病相关的miRNAs,因此,本文提出一种基于图正则化框架的疾病相关miRNAs半监督预测方法,MDAGRF(MiRNA-DiseaseAssociationbasedonGraphRegularizationFramework).该方法首先结合miRNA簇信息和家族信息构建miRNA-疾病异质信息网络;然后,结合同质空间和异质空间利用图正则化框架预测疾病相关miRNAs.在五折交叉验证和全局留一交叉模式下,MDAGRF比现有方法能够获得更高的AUC、AUPR等.此外,MDAGRF在进行重新预测实验中也能够获得更好的预测结果.
  (5)现有疾病相关miRNA预测方法往往难以同时考虑靶基因信息和已知的miRNA-疾病链接,因此,本文提出一种结合靶基因信息的基于异质流形的疾病相关miRNAs预测方法,DMHM(Disease-relatedMiRNAsbasedonHeterogeneousManifold).该方法首先利用MeSH数据集中疾病有向无环图计算疾病语义相似性;然后,结合疾病语义相似性、疾病-基因链接、疾病-miRNA链接、基因-基因链接和miRNA-基因链接构建miRNA-基因-疾病异质信息网络;最后,DMHM基于异质流形识别新的疾病与miRNA之间的关系.基于HMDD数据集,DMHM在miRNA-疾病关系推断方面能够获得更好的识别结果.此外,五折交叉验证验证了DMHM预测疾病相关基因的能力.
其他文献
计算机视觉领域中包含了各种各样的图像分析与处理技术,目标跟踪是它的一个重要组成部分。现有的目标跟踪算法中,存在着精度与速度的矛盾,往往精度高的算法速度较慢,而速度快的算法精度较低。对于不同场景下的要求,需要对速度与精度进行权衡。在超高速目标跟踪场景下,要求跟踪速度必须极快并且精度不能过低,因此研究一种计算速度极快并且精度尚可的目标跟踪算法具有重要的意义。  弹载应用场景对目标跟踪平台的体积和功耗有
介绍通信集成电路相关的硅基CMOS工艺、GaAs HBT与HEMT工艺、SiGe HBT与BiCMOS工艺,介绍东南大学射频与光电集成电路研究所利用多种工艺实现的光纤通信集成电路部分研究成果。
随着网络信息技术迅猛发展,人们尽管有越来越多获取信息的方式,还是抵不住信息过载问题的影响——越来越难以准确、快速地定位到所需要的信息。个性化推荐系统是缓解信息过载问题,满足用户个性化需求的重要手段。针对推荐系统中传统基于用户的协同过滤推荐算法的数据稀疏、冷启动问题,提出了SUBCF_CK算法。相较于传统算法,SUBCF_CK算法主要改进工作如下:为减轻用户-项目评分矩阵的稀疏问题对推荐效果的影响,
学位
基于视频流的图像拼接技术是提取一段视频中的若干关键帧,将关键帧重叠区域的图像进行特征点配准、边界缝合后生成一张完整的拼接图像,该技术在计算机图形学、视频监控、无人机航拍图像、遥感影像等领域展示了广阔的应用前景和价值。随着计算机技术和信息化的快速发展,图像拼接技术可以准确高效地将视频流中的关键信息以图像的方式展现出来,满足实时性的要求。铁路交通监控视频就是其中的典型代表,通过研究图像拼接技术,及时发
学位
随着科学技术的发展、网络化系统的兴起及各类移动设备的普及,人类社会迈向了大数据时代,知识发现和数据工程在广泛的社会活动中发挥着不可或缺的作用。然而,许多现实应用的领域,所学习的数据呈现类的不平衡分布,即一些类(少数类)的样本数目显著地少于其它一些类(大数类)。绝大部分的标准学习算法假设相等的错分代价,当面对复杂的不平衡数据时,它们不能为代表领域价值的少数类提供理想的预测精度。因此,不平衡数据的学习
学位
本文受启发于和企业的智慧医疗合作项目,围绕心脏病的发病特性和心脏病监控中的数据处理问题展开,伴随着云计算、边缘计算等新的计算模型的出现,重新思考现有心脏病监控方式的缺陷,依赖云计算模型提出了新的心脏病监控方式,并针对这一新型心脏病监控方式中的数据处理问题,重点关注了动态心电图的降噪问题以及动态心电图的心律失常检测问题,主要内容介绍如下:  (1)远程心电监控系统;首先综述了国内外关于远程心脏病监控
信息与通信技术领域的不断发展,推动了无人驾驶汽车领域的巨大的进步。无人驾驶汽车有效解决了用户对出行日益提高的安全、便捷、舒适和高效等个性化需求,有着巨大的商业前景和应用价值。无人驾驶技术相关的传感器数据处理,环境感知,深度学习,决策和控制,给无人驾驶汽车的计算能力带来了巨大的压力,因此它对硬件成本和能量的需求也进一步增加。无人车要想成为普通大众买得起的消费品,就必须要降低硬件成本。同时道路汽车功能
学位
在过去十年中,随着无线通信技术与传感技术的进一步发展,无线传感器网络(WirelessSensorNetwork,WSN)在世界各国学术界、工业界和商业界均备受关注,并取得了广泛的进步与应用。在无线传感器网络应用中,位置信息对传感器节点的监测活动至关重要,离开位置信息,感知数据往往是毫无意义的。例如环境监测、目标跟踪和地理路由协议实现等应用都要求节点提供自身准确的位置信息,由此可见,节点定位对无线
优化问题涉及工业、金融、经济、工程等多个领域。优化问题由三个主要的部分组成:目标函数F、变量x=x1,x2,...,xn以及约束条件集。基于这些准则,我们将文献中提出了许多优化问题进行了分类。例如考虑要优化的变量类型时,优化问题可以分为连续优化问题、离散优化问题,甚至可以是混合优化问题。根据约束条件的存在与否,优化问题可以分为只存在边界约束的无约束优化问题,也可以分为存在附加等式或不等式约束的约束
学位
近几年来,大数据在全球迅猛发展,引起了学术界、业界和各国政府的高度关注。大数据的发展带来了重大的发展机遇与技术挑战。一方面,通过有效地管理大数据并分析提取其价值,能够为行业提供高附加值的应用和服务,实现巨大的经济和社会价值。另一方面,大数据在带来发展机遇的同时也带了巨大的技术挑战。传统的计算技术在处理大数据时将面临诸多的技术困难。因此,需要设计并开发面向大数据处理的机器学习、数据挖掘算法,并研究提