基于CNN-BLSTM的pre-miRNA识别方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:jingqihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类基因组中,非编码序列占基因组序列的90%以上,micro RNA(miRNA)作为一类非编码RNA在细胞分化和组织发育中具有重要的调控作用。miRNA调节紊乱会影响细胞的生长和分化,miRNA的失调或过表达会抑制各种癌症的增殖或转移,因此对miRNA识别的研究在疾病的诊断和治疗方案中具有重要的理论价值和应用意义。miRNA的识别方法主要分为实验性克隆和计算机模拟预测两种。实验性克隆方法中,miRNA的识别需要特定的发育时间或组织表达,具有一定局限性。计算机模拟预测方法中,现有深度学习方法均未同时关注到miRNA的时间信息和空间信息,而miRNA的空间信息包含miRNA功能信息,miRNA的碱基序列(时间信息)会影响miRNA分子的正常调控,因此对miRNA时间和空间信息的捕捉是非常有必要的。本文针对现有miRNA识别研究中存在的问题,从序列和二级结构角度,构建了级联CNN-BLSTM框架,并捕获miRNA复杂抽象的时间和空间信息用于识别miRNA。本文主要研究内容如下:(1)在miRNA序列预处理阶段,本文使用CD-HIT和RNAfold工具删除冗余序列并获得序列对应的二级结构,使用one-hot编码方法完成premiRNA序列和二级结构的向量化。(2)由于现有深度学习方法未同时关注到pre-miRNA的时间和空间信息,导致信息缺失,因此本文提出了级联CNN-BLSTM模型,该模型首先引入CNN提取局部空间信息,同时引入了BLSTM神经网络对序列进行上下文特征提取,解释pre-miRNA的时间依赖问题。该模型通过捕获premiRNA序列、二级结构全面的空间信息和时间信息从而对miRNA进行分类。(3)由于实验数据普通存在不平衡问题,因此本文对比了三种不平衡处理方案,并通过实验选取了表现性能最优的focal loss函数,用于减弱数据不平衡对模型性能的影响,使分类器可以专注于阳性样本,提升模型预测能力。综上所述,本模型考虑了序列和二级结构信息,同时捕获了miRNA复杂抽象的时间和空间信息,并引入数据不平衡解决方案,构建了级联CNNBLSTM模型。实验结果表明,与现有研究相比,本模型在SE、PPV、F-score指标上有更大的优势,表明了本文模型可以更加有效的识别pre-miRNA,这为细胞生理学和病理学研究提供了新的理论依据。
其他文献
抑郁症(Depression)是一种严重危害人类身心健康的常见疾病,近年来抑郁症的发病率呈逐年上升趋势。抑郁症,尤其是重度抑郁(MDD),不仅困扰患者的生活和工作,也对其家庭和社会
三维整体中空夹层复合材料是一种新型的夹层结构复合材料,由纤维束预制体作为增强体,浸润环氧树脂以后固化形成具有特定几何结构和力学性能的材料。三维整体中空夹层复合材料因其轻质、高强、整体性强的优点,在很多的领域可以取代传统的夹层结构复合材料。本文对三维整体中空夹层复合材料的力学性能进行了研究,主要内容包括:1.研究了三维整体中空夹层复合材料在各种载荷工况下的应力分布,并对不同载荷下的破坏进行了预测。2
聚合物基纳米复合材料由于兼具了聚合物和纳米材料的双重优点而被广泛应用于化工、纺织、电子、医疗、建筑等领域。聚氨酯(PU)具有高弹性、良好的挠曲性以及耐候、耐磨、耐油等优良性能,是制备聚合物基纳米复合材料的重要基体之一。碳纳米管(CNTs)因其独特的结构、极大的长径比以及优异的性能而被认为是制备聚合物基纳米复合材料的理想填料,因此将其加入到PU基体中,便可得到综合性能优良的多功能CNTs/PU复合材
随着人们环保意识的不断增强,荧光粉也逐渐受到重视。目前所使用的荧光粉多采用无机发光材料,但其有成本高、发光效率低和调色困难等缺点;而有机发光材料因具有良好的可调性、高色纯度和高量子产率等特性使其得到研究人员的重点关注。其中,香豆素因其共轭体系大、可调性好以及光稳定性高等特点被广泛用于光电器件和化学传感器等领域。但香豆素易于形成较强的π-π堆积,导致其固液状态下荧光较弱。为了得到固液状态下均具有强荧
由于空间数据的维度属性和位置关系的可变性,空间数据库的主要工作是处理大量空间数据,并且它可以合理有效地完成所需的添加、删除、修改以及其他功能。对空间数据进行索引特别重要,索引不仅可以改变数据的存储结构,优化存储过程,还可以实现更快地执行类似查询的操作。大多数空间数据的索引结构为R树,而R树是在一维数据中广泛使用的B树索引结构在空间上的扩展。R树的传统构造是通过动态插入技术实现的,即逐步插入空间数据
柴油发动机作为热效率最高的动力源之一,被广泛的应用于农业、工业、交通运输等领域。随着工业的不断发展,大气环境污染越来越严重,相应地颁布了一系列严格的排放法规,节约能
改革开放以来,广西以其独特的区位优势不断促进经济大发展,推动经济结构优化升级。与此同时,广西区对各级各类专业人才的需求尤为迫切,作为高等教育结构的主要亚结构之一,高等教育层次结构对经济结构高度化发展的重要作用日益凸显。本文以人力资本理论、新经济增长理论及制度变迁理论为基础,对2007-2017年广西高等教育层次结构与经济结构的变迁进行分析,并在此基础上通过相关性分析、主成分分析及回归分析后发现:广
近年来,气候变化所展现出来的危害已经严重威胁人类生存,中国作为全球温室气体排放大国,在推进全球气候治理上有着不可推卸的责任。作为负责任的大国,中国始终高度重视气候变化问题,积极参与气候变化国际谈判,并且作出了重要贡献。与此同时,气候传播也逐渐成为我国学者关注的焦点。媒体是公众获取气候变化信息的主要渠道,是气候传播的重要参与者。本文以《中国日报》的气候变化报道为研究对象,以框架理论为依托,采用内容分
多胺是动物细胞生长必需的一类活性小分子,包括腐胺、亚精胺和精胺。腐胺是其他两种多胺合成的前体物,三种多胺之间在多胺合成酶、多胺氧化酶和亚精胺/精胺乙酰转移酶的作用
金属硫蛋白(Metallothioneins,MTs)是一类广泛存在于生物体的低分子量、富含半胱氨酸的热稳定性蛋白质,具有维持体内微量元素的平衡、隔离和保护免受镉、汞和铅等有毒金属的侵害、保护细胞免受氧化应激等功能。金属硫蛋白被认为是重金属污染的生物标志物,也被认为是有前途的肿瘤标志物之一。迄今为止,有关金属硫蛋白的测定方法已有很多报道,如金属饱和法、原子吸收光谱法、免疫分析法、电化学方法等。但是