【摘 要】
:
精确的RNA二级结构信息是基因功能研究和RNA三级结构预测的基石。RNA是生物体内重要的基本物质。它在调节基因和表达基因中起重要作用。RNA在生物中的功能主要取决于其三级结构。然而,RNA分子的三级结构很复杂,缺乏有效的描述方法。从RNA分子的一级结构直接预测三级结构非常困难。因此,使用RNA的一级结构去预测RNA的二级结构成为研究RNA结构的主要过程。同时含假结的RNA二级结构的研究一直是RNA
论文部分内容阅读
精确的RNA二级结构信息是基因功能研究和RNA三级结构预测的基石。RNA是生物体内重要的基本物质。它在调节基因和表达基因中起重要作用。RNA在生物中的功能主要取决于其三级结构。然而,RNA分子的三级结构很复杂,缺乏有效的描述方法。从RNA分子的一级结构直接预测三级结构非常困难。因此,使用RNA的一级结构去预测RNA的二级结构成为研究RNA结构的主要过程。同时含假结的RNA二级结构的研究一直是RNA研究领域的难点,虽然可以通过物理和化学实验得到其结构,但由于这些方法缺点较明显,所以仍需要使用相关的计算机知识来预测RNA的二级结构。大多数传统的RNA二级结构预测算法,是基于硬约束与软约束条件结合的动态规划算法和最小自由能算法。其精确度取决于软约束条件(化学和酶检测等实验数据)的精确性,且对于长序列预测时,其时间复杂度和难度呈几何倍增长。同时,由于假结结构的复杂性,基于传统算法的二级结构预测方法存在很大的缺陷,并不能很好的预测出带假结的二级结构。因此,过去很少有针对假结预测的算法。深度学习方法是最近几年提出的一种表示学习方法,其可以通过对大量数据的训练,挖掘出数据中有效的隐藏特征。本篇文章提出的ATTfold算法,是一种通过基于注意力机制的深度学习模型结合RNA硬约束条件对RNA二级结构进行预测的算法。此算法通过注意力机制的特性,可以对RNA序列的全局信息进行分析,并可以着重注意配对碱基之间的相关性,且解决了长序列预测的问题。同时可以通过此算法对多类RNA家族中大量的RNA序列与结构信息数据进行分析,提取出有效的多维隐藏特征,再结合本篇文章对RNA二级结构特有的硬约束条件的特殊表示方法,从而精准的判断出各个碱基的配对位置,得到真实有效的RNA二级结构。由于本篇文章对RNA序列数据以及结构数据的特殊处理,ATTfold也可以通过此处理方法预测出真实的含假结RNA二级结构。最终通过不同家族的上万个RNA序列以及它们的真实二级结构对ATTfold算法模型进行训练后,并与4个经典的RNA二级结构预测算法进行比较,在敏感性和特异性以及F1-Score等各项指标上都有显著的提升。其中在短RNA序列家族中,我们的方法相较于其他4种算法的最高F1-Score值,平均提升了22.8%;而针对长RNA序列家族来说,平均提升了23.9%。同时我们的评价指标计算更能真实的表现出RNA的二级结构,而不仅仅是精确度的提升。同时随着RNA序列数据库的不断更新扩大,基于深度学习的算法将越来越准确。在未来此类算法将是一种必不可少的算法。
其他文献
高中生物的分层教学是在对传统班级授课形式改革的基础上施行的个别化的教学方法。分层教学的应用尊重学生的个体差异,可能改变传统教学中的弊端,从某种程度上激发学生之间的合作力和竞争力。本人所在的学校生源情况复杂,既有内地西藏班,又有本地班级,为开展跨民族性分层教学研究提供了适宜的对象。西藏族班的学生由西藏牧区及援藏干部的子女组成,汉族班和藏族班班内学生都存在不同程度的差异,除语、数、外以外,其他科目教师
投资要点本土品牌有望凭借快速学习能力、灵活应变能力突围崛起。预计至2025年面部功效护肤市场中,单一龙头品牌终端零售规模有达到260亿元的可能性(抗衰+皮肤医学级),四大方向有助延展边界:1)品类扩张:有助拓宽用户范围。2)收购整合:欧莱雅陆续收购薇姿/理肤泉/修丽可/CeraVe建立品牌金字塔矩阵;
随着网络的发展及多方面的需求,卫生职业学院学生(以下简称卫职院校学生)中上网已经成为一种普遍现象。对于卫职院校学生来说,其人生观、价值观尚未真正定型,因此上网过程中难免会存在一些不利于其健康成长的现象。本文在研究过程中就当前卫职院校学生网络生活现状及其管理情况进行了分析,并基于网络生活角度对卫职院校学生管理提出了几点建议。
猪流行性腹泻(Porcine Epidemic Diarrhea;PED)的病原体是猪流行性腹泻病毒(Porcine Epidemic Diarrhea Virus;PEDV),该病具有传播快、流行性广和仔猪致死率高等特点[1]。PED的暴发和流行已给我国乃至全球的养猪业造成毁灭性的打击。目前针对该疾病的主要的防治手段为口服/肌肉注射疫苗、病料反饲等,效果仍然有限。因此,急需开发出新型的病毒防治策
路径规划是人工智能领域的一个重要研究方向,一个好的路径规划算法需要满足两个基本的要素:第一,算法应规划出一条能在飞行过程中绕过障碍物的路径;第二,算法规划出的路径应该是最佳路径,并满足所涉及的各种约束。然而,传统的路径规划算法把所涉及的约束固化在程序中,不方便修改、添加新的约束,因此,本文采用XCSP3语言对路径规划过程中所涉及的约束进行表示,从而实现约束的可动态修改与删除。*算法是一种经典的启发
针对目前高品质番茄价格昂贵,大众需求无法满足的问题,根据番茄对水分和氮素营养的需求规律,研究高粱伴生以及植株生长发育的某个阶段水分胁迫对番茄品质的影响。本试验以品种“铁皮”和“普罗旺斯”为研究对象开展试验,通过盆栽试验研究栽培措施对果实糖酸含量的影响,在此基础上探究水分胁迫和高粱伴生对番茄糖代谢、植株生理特性及土壤微生物的影响。揭示水分胁迫和高粱伴生模式下果实糖代谢、植株生理代谢以及土壤微生物的变
长非编码RNA(long non-codingRNA,lncRNA)是一种长度超过200个核苷酸,且不翻译蛋白质的RNA。近年来,越来越多的研究揭示lncRNA在生理和病理过程中起着重要的调控作用。lncRNA的异常表达与许多严重危害人类健康的重大疾病(心脑血管、阿尔兹海默和癌症等)有着密切的关联。lncRNA的研究成为近年来新的研究热点。随着lncRNA的生物医学文本爆炸式增长,自动探索和挖掘海
酸性土壤中的低pH环境和Al胁迫会对植物造成侵害,二者均会抑制根的伸长。植物耐低pH和Al胁迫机制已经是近年来的热点课题,但是相比对金属离子Al的研究,低pH对植物的影响还没有较深入的研究。本文从TMT标记的定量蛋白组和转录组学联合分析的角度研究拟南芥在低pH条件下的蛋白表达变化和基因表达变化,鉴定和筛选出低pH响应基因和蛋白,同时通过基因克隆和转化的方法将组学中发现的重要低pH相关基因与LUC串
目的:探讨高职院校护理人际沟通中应用学生标准化病人的效果。方法:将高职院校护理专业60例学生(2019年2月到2019年6月)按随机数表法分为常规组(n=30,常规护理人际沟通教学)和标准化组(n=30,学生标准化病人辅助),分析学生人际沟通能力状况。结果:标准化组学生沟通基础知识掌握、案例分析、沟通技巧、情感支持评分显著高于常规组(P<0. 05)。结论:高职院校护理人际沟通中运用学生标准化病人
选择20头体质量500kg左右的西门塔尔杂交牛进行试验,研究肉牛宰前运输应激对其血液理化指标及免疫机能的影响。结果表明:与运输前相比,运输后体质量极显著降低(P<0.01),体温极显著升高(P<0.01);血清谷草转氨酶(P<0.01)、肌酸激酶(P<0.05)、乳酸脱氢酶(P<0.05)和碱性磷酸酶(P<0.05)水平均显著升高;血清葡萄糖(P<0.01)和乳酸(P<0.05)含量显著升高;尿素