基于序列特征的生物序列分析和RNA结合蛋白识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nose88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着像基因检测等技术的快速发展,生物序列数据连年剧增,大幅度增长的序列数据促进了生物学许多领域的快速发展。然而,在快速发展的同时仍然存在许多问题等待科研工作者们深入地探索和研究,例如基于残基层面的序列分析,RNA结合蛋白识别,蛋白质无序区域预测识别等。现阶段面对数量规模庞大的序列数据,通过传统的生物实验要消耗大量的社会资源且无法得到很好的效果。为此,寻找或设计一种新的生物序列数据分析方法迫在眉睫,挖掘数据中的内在规律来帮助研究者解决相关问题被视为一条有效的探索途径。如今,人工智能相关理论趋于完善,大数据生态架构日渐成熟,更多的研究者在处理生物序列相关的研究问题时会选用机器学习或数据挖掘等技术来对数据进行潜在的关联分析。通过传统的生物实验识别RNA结合蛋白的方法,因其精确性不高,耗费资源等局限性已无法满足研究的需要。本文通过研究RNA结合蛋白的序列特征,使用特征提取、向量构建等方法挖掘序列的潜在信息,结合机器学习算法构建分类器对RNA结合蛋白序列进行预测识别。本文主要内容包括:本文基于序列特征提出了一个能够为残基层面和序列层面分析任务自动生成预测算子的工具Bio Seq-Analysis2.0。Bio Seq-Analysis2.0分析系统包括了26种残基层面以及90种序列层面的特征提取方法。针对残基层面的分析任务,Bio Seq-Analysis2.0使用滑动窗口策略提取序列中顺序相邻残基的信息,为了更好的捕获全局序列残基间的顺序信息及内在关系,本系统中添加了序列标记算法条件随机场。本文还构建了Bio Seq-Analysis2.0单机工具包,在增强子数据集、m RNA N6-甲基腺苷数据集、蛋白质无序区域数据集上的测试结果表明,通过Bio Seq-Analysis2.0生成的预测算子是有效的。本文基于序列特征和协同学习策略提出了一种识别RNA结合蛋白的方法i RBP-Motif-PSSM。首先,融合Motif-PSSM特征和多种序列特征作为特征向量,借助支持向量机算法构建分类器。之后采用协同学习策略对分类器进行集成,构建最终用于识别RNA结合蛋白的分类器i RBP-Motif-PSSM。将本方法在独立测试数据集和人类蛋白质组数据集上进行对比测试,实验的结果表明i RBP-Motif-PSSM方法能够有效地提高RNA结合蛋白的识别性能。
其他文献
自美国北岭地震和日本阪神地震爆发以来,钢框架结构中节点的转动变形能力逐步得到重视,而半刚性节点因其能兼顾承载能力和变形能力也逐步受到设计人员的青睐。在半刚性节点的众多研究方法中,组件法因其物理含义明确、适用性强、计算效率高等优点而被欧洲钢结构规范Eurocode 3所采用并推广。其中,受拉区的等效T形件为整个节点贡献了最为显著的转动变形能力,是半刚性梁-柱节点的核心组件,因而具有显著的研究意义。然
针对带有优先经验回放机制的深度强化学习中存在的学习效果容易受到时序误差离群值的不利影响、学习过程忽略立即回报和时间差分误差小的经验、算法难以收敛等问题提出了优先
当前交通事故频发,智能驾驶技术成为解决这一问题的有效手段之一,车道线检测是智能驾驶技术的基础而重要的组成部分,对车辆的路径规划及行为决策中发挥了重要的作用。通过对
近年来,随着世界各国经济快速发展、社会生产力的不断提升、社会物质生活不断丰富,经济与生态环境的不协调发展也日益突显出来。空气污染的问题日益突出,雾霾天气在全球多个
目的1.研究Er:YAG激光对含管间峡区根管的杀菌作用,并挑选出杀菌效果最好的Er:YAG激光功率;2.研究Er:YAG激光配合NaClO冲洗对含有管间峡区根管的清理作用。方法1.经锥形束CT
近年来,随着大型癌症登记数据的易获得性和研究的重要性,癌症生存模型中地理和风险效应的灵活组合正变得越来越受欢迎.大多数空间生存模型会从不同亚群中随机获得生存曲线.然而,在流行病学的研究中,两个亚群的生存曲线通常会相交,因此在不做修改的情况下标准的生存模型是不能使用的.通常的解决办法是在成比例风险模型或完全非参数模型中加入时变回归效应,然而上述两种模型中任何一种都会破坏拟合模型的易解释性.为了解决这
近些年来,相变材料的理论研究以及实际应用大多数集中在有机相变材料方面,对无机相变材料的研究少有涉猎。无机相变材料不仅具有导热率高,熔化范围短等优点,而且价格低廉。为同时满足北方猪舍猪只腹感温度的需求,以及国家所提倡的节能环保的方针。因此将无机相变材料应用到北方猪舍猪床结构设计中具有重大的意义。本文通过对国内外无机相变材料相关文献阅读的基础上,结合现在对无机相变材料实际应用的研究现状,依据猪的生物学
事件抽取旨在挖掘文本描述的具体事件信息,是信息抽取领域的一个重要研究任务。自动内容抽取(Automatic Content Extraction,简称:ACE)对事件抽取进行详细定义,分为触发词检
互联网技术的发展促使人们在机器学习和数据挖掘领域中不断提高对数据的要求,同时对数据中的异常点检测的研究也更加深入。目前,异常检测方法主要根据不同的检测模型来分,通
目的:本研究旨在探讨CalliSpheres?载药微球经动脉化疗栓塞(DEB-TACE)治疗中国肝细胞癌(Hepatocellular carcinoma,HCC)患者中的疗效、安全性以及预测因素。方法:我们对2015