基于非负矩阵分解的疾病相关miRNA预测方法研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:sqno1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类细胞中包含大量的micro RNA(miRNA),它们通过与m RNA互补调控基因的表达,阻碍m RNA的翻译过程,或者降解m RNA,从而参与包括发育、细胞增殖和凋亡等在内的生物进程。研究表明,miRNA的异常表达与人类恶性肿瘤的发生与发展息息相关,因此,miRNA表达谱可作为肿瘤等疾病临床诊断、分类、分级甚至预后与治疗的指标,并为治疗提供新的靶点。通过生物实验研究疾病相关miRNA结果虽然可靠,但是会耗费大量时间与金钱,且失败率较高。为此,学者们提出了大量有效的计算方法以预测人类疾病相关的miRNA,弥补了传统生物实验方法的不足。目前已有的计算方法虽然有效,但仍存在相似性度量不够丰富、miRNA-疾病已知关联信息稀疏、模型预测准确性不高等一些亟待解决的问题。针对上述问题,本文基于非负矩阵分解构建了三个预测疾病相关miRNA的计算模型,主要研究内容如下:(1)构建了基于图拉普拉斯和L2,1正则化的非负矩阵分解模型(GRL2,1-NMF)。首先,针对已知miRNA-疾病关联信息不足的问题,GRL2,1-NMF模型采用加权K近邻(WKNKN)预处理方法,降低了miRNA-疾病关联的稀疏性。其次,GRL2,1-NMF模型分别为miRNA和疾病计算了高斯核相互作用谱(GIP)相似性,并采用了两种计算策略度量疾病语义相似性,从而大幅度降低了miRNA和疾病相似性矩阵的稀疏性。另外,GRL2,1-NMF模型在非负矩阵分解(NMF)的基础上引入了吉洪诺夫正则化、图拉普拉斯正则化、L2,1正则化,进一步弥补了传统NMF模型的不足。最后,五折交叉验证(5CV)和留一交叉验证(LOOCV)实验的AUC值分别达到0.9276、0.9280,以及案例研究的实验结果证明了GRL2,1-NMF模型的有效性。(2)实现了基于矩阵填充和L2,1正则化的非负矩阵分解模型(MCNMF)。首先,考虑到低秩矩阵可以通过已有的少量信息进行恢复,矩阵中的噪声部分可以通过L2,1正则化予以去除,因此,在度量生物学相似性和GIP相似性的基础上,MCNMF模型采用MC(矩阵填充)预处理步骤丰富了相似性信息。其次,该模型利用WKNKN对miRNA-疾病邻接矩阵进行预处理以降低其稀疏性。此外,为了去除噪声并降低过拟合,在GRL2,1-NMF模型的基础上,MCNMF模型引入了双L2,1正则化优化了目标函数。最后,5CV、LOOCV实验的AUC值分别达到0.9383、0.9380,以及案例研究的实证结果进一步证实了MCNMF模型的有效性。(3)设计了基于卷积神经网络的深度非负矩阵分解模型(NMF-CNN)。首先,在分解miRNA-疾病关联矩阵得到疾病和miRNA的原始特征基础上,NMF-CNN模型采用映射模块训练并捕获了疾病和miRNA的潜在非线性特征。进而,将之与miRNA和疾病的生物相似性、GIP相似性以及低秩恢复的相似性等辅助信息相融合得到NMF-CNN模型的训练样本。然后,NMF-CNN模型设计了基于卷积神经网络的预测模块,实现了疾病相关miRNA的预测。基于5CV验证的AUC值达到0.9456,以及案例研究的实验结果充分证实了NMF-CNN模型的有效性。总之,本文深入研究了人类复杂疾病相关miRNA,基于非负矩阵分解,设计了三个新型miRNA-疾病关联预测模型,提升了疾病相关miRNA预测的准确率,为识别人类疾病相关miRNA提供了有效方法,在预防、诊断、治疗人类恶性肿瘤方面有一定的理论指导意义和实际应用价值。
其他文献
近几年,专家学者们通过对大量数据的统计分析发现,癌症、阿尔兹海默症和糖尿病等重大疾病的发展调控机制与lnc RNA和mi RNA等RNA分子之间存在着重要关联。因此,设计提出有效的lnc RNA-疾病关联(Lnc RNA-Disease Association,LDA)预测方法和mi RNA-疾病关联(Mi RNA-Disease Association,MDA)预测方法对于复杂疾病的预防、诊断和
本文主要研究了几类反应扩散方程的适定性和动力学,包括非自治三分量可逆Gray-Scott系统、随机三分量Gray-Scott系统以及随机二厢Gray-Scott系统.本文分为六个章节.第一章,我们介绍了动力系统、吸引子以及反应扩散方程的物理背景和研究现状,并给出了本文的创新所在和整体结构.第二章,我们定义了一些符号,并给出了一些定义、定理、命题和性质,包括随机动力系统和吸引子的定义.第三章,我们考
随着物联网技术快速发展,大量数据随之产生,为传统的云计算带来巨大的数据处理压力。作为云计算的延伸,边缘计算将数据处理、存储等能力扩展到物联网设备附近的网络边缘侧,大量数据不需要上传云端,减少了网络传输负载,降低了传输时延。目前,边缘计算存在两个亟待解决的问题:一是如何在数据源附近实现任务的及时处理和反馈。二是样本在每个维度空间分布不均,如何对数据进行有效降维。这两个问题决定了边缘计算的服务质量,进
复杂疾病往往是由遗传、环境等多种因素共同作用导致的。挖掘复杂疾病的潜在遗传模式是揭示复杂疾病遗传机理的重要方法,其中基于多组学数据的复杂疾病网络模式挖掘方法为识别复杂疾病的遗传因子提供了新思路。本文以仿真数据和真实的复杂疾病多组学数据(基因表达数据、甲基化数据、拷贝数变异数据、单核苷酸多态性数据等)为基础,以遗传交互网络的构建与网络模式挖掘方法为手段,致力于发现复杂疾病的潜在遗传模式。具体研究内容
当今社会,科技的发展日新月异,智能机器人的应用扩展到越来越多的领域中。医疗领域的康复机器人越来越广泛地应用于具有运动功能障碍患者的康复训练中。绳驱动并联机器人具有工作空间大、运动速度快等优点,具有较强的实用价值。由于现有的绳驱动康复机器人主要采用绳悬吊或者外骨骼式的形式,存在康复患者初期进行训练时会由于肌无力问题影响康复训练效果的问题,所以本文研究了一种新型卧式绳驱动康复护理机器人的建模与控制问题
随着社会的快速发展,教育越发受到大众重视。在我国素质教育的大环境下,中小学生所要接触到的不仅仅是一成不变的教科书知识,还涉及到方方面面,比如在人文素养方面的发展、在科技知识方面的要求等等。但面对种类繁多、信息冗杂的图书,中小学生想要找到适合自己本阶段使用的书籍和相关资料有一定的难度,而且没有特定的目标就没有办法选择适合自己的图书。因此,可以利用读者产生的海量数据加上合适的推荐算法,分析读者的阅读记
近几年,大系统得到了广泛应用,本文通过构造新型Lyapunov-Krassovskii泛函,研究了具有不确定性非匹配项的非线性互联时滞大系统分散自适应控制器设计问题。本设计无需借用线性矩阵不等式,提出显性控制器增益函数,运用自适应方法对系统未知项和不确定项进行估计和补偿。本文的主要研究内容如下:在第二章中,针对一类不确定且具有不匹配项的互联时滞大系统提出了一种精确控制器增益的分散自适应控制算法。通
生物测序技术的发展使得人们获得了大规模的基因组学数据,这些组学数据包含了个体或者细胞的微妙变化,对其进行挖掘研究可为探索疾病的机制、量化细胞的差异以及构建生命系统网络等提供有效的帮助。基因组学数据通常具有高维小样本的特点,这对于样本的下游分析造成了很大的阻碍。而矩阵分解作为一种有效的数据降维方法,受到了学者们的广泛关注。测序数据不可避免地会存在一些噪音或异常值,但传统的矩阵分解方法在面对这些噪音或
近年来,随着促进旅游业发展的政策不断出台,我国旅游业的规模不断扩大,使得旅行社公司的经营模式发生转变。传统的线下业务开展模式已经不能满足旅行社公司的发展需要。为增加自身在旅游市场中的竞争力,旅行社公司的管理人员应更多地考虑多元化的盈利模式,多样化的销售网络,以及在线平台的建立、线上和线下平台有效结合的问题。在旅游需求不断扩大的背景下,作为主体的旅行社既要抓住机会开拓市场,又要不断增强其适应危机的能
随着科学的不断发展,混杂系统已成为一个跨学科的研究领域。其中最典型的两类混杂系统为切换系统和脉冲系统。然而,在很多领域,如航空航天、电子电路、机器人等,出现了更加复杂的系统,单纯的靠某一系统已经不能有效地解决问题。因此,很多研究者们将切换系统与脉冲系统相结合,衍生出一种新的混杂系统,即脉冲切换系统。脉冲切换系统在理论研究与实际应用中均有重大的意义,本文利用多种方法,研究脉冲切换系统的稳定性。本文的