蛋白质与RNA相互作用接口序列模式发现算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xin__yonghu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA绑定蛋白质(RNA binding proteins)在很多生物学过程起着重要作用,发现RNA在蛋白质上的绑定位点为了解这些过程提供了线索。尽管已有很多方法预测蛋白质与RNA相互作用点位,但正例预测准确性普遍较低。为此,本文提出一种在接口密集区域寻找保守的序列模式算法,并从多种角度验证了序列模式的显著性。   首先,本文设计并开发了蛋白质与RNA接口区域序列模式发现算法Sim-EISMD(Simpleyet Efficient Interface Sequence Motif Discovery method),通过限制序列模式无效出现和对序列模式内部包含的接口数的控制来保证序列模式的接口富集性,而序列模式的保守性则是通过要求序列模式出现频率高于候选序列的平均出现来支撑的。该算法在普遍采用的接口预测数据集RBPs91上,发现了12种序列模式,其中9种的序列模式的长度为3,并且内部全部为接口氨基酸。3种序列模式的长度为4,内部至少包含三个接口氨基酸。   为了验证序列模式的显著性,本文构造了20个与原有数据集RBPs91保持氨基酸和接口分布均相同的数据集。算法对这些数据集的检测结果表明,随机条件下出现次数超过两次的序列模式的平均个数为0.45,很少有出现次数超过2次。而真实的RBPs91中的个数是9,二者相差20倍。这表明Sim-EISMD发现的12序列模式并非是偶然的随机出现。   最后,我们对序列模式的二级机构进行了分析,发现65%的符合12种序列模式的序列片段含有二级结构。在这些结构中,78%是α螺旋结构,32%是β折叠结构,因而,序列模式更倾向于α螺旋结构而不是β折叠结构。   本文首次将序列模式发现算法应用到蛋白质与RNA相互作用接口区域,并统计学的角度验证了序列模式的显著性。同时,通过对序列模式所在二级结构的分析,发现预测的序列模式大部分含有二级结构,且倾向于α螺旋结构。并且,通过与常用序列模式算法MEME和Gibbs Motif Sampler比较,结果表明现有模式发现算法并不适合该类型的模式发现。
其他文献
现今视频监控系统实时监控被监视对象的行为,在管理和监测城市的任务上具有越来越重要的地位,可以说是无处不在。而视频监控系统需要朝着智能化的方向前进,要尽可能地减少人工干预或完全自动化地完成所需的任务。智能视频监控技术主要是用计算机视觉的方法实现所需完成的视觉任务,例如场景中的目标定位、目标识别、目标跟踪等视觉任务,智能监控的过程不需要人为进行干预。智能视频监控技术在摄像机拍录的视频图像序列上进行自动
目前,中文信息处理的最大难题是如何实现汉语句子的自动标识。“句处理”主要分为单句处理和复句的处理,现在研究较多的是单句的处理。而复句是连接单句与篇章的桥梁,因而复
随着IT行业的发展,软件版权保护问题日益突出,由此需求而发展起来的软件版权保护技术也越来越受到人们的关注。其中的一款保护手段是基于软件水印的。软件水印技术是将拥有者的
近年来,随着片上多处理器(CMP)成为各种芯片设计的主流结构,如何提高串行程序的性能已成为迫待解决的问题。一些研究者提出了采用分布式动态可重构多核处理器(Distributed Dyna
随着互联网技术的飞速发展,各种类型的网络结构越来越复杂,用户难以直接从中发现有用的信息,因此对复杂网络的研究受到越来越多的国内外研究者的关注。研究人员发现大多数复杂网
明末清初,山河骤变.在动荡不安的时代背景下,一大批遗民涌现出来,傅山是这个时代颇具代表性的遗民书法家之一.作为遗民书法家,傅山一方面对新的统治者怀有抵触情绪,另一方面
随着物流产业的快速发展,物流应急问题接踵而来。面对物流应急事件,构建数字化和规范化的应急预案,确保应急预案有效执行,将事件造成的危害和损失控制在最低限度,已成为物流
随着科学技术不断地发展与创新,互联网使人们获取资源和信息的方式越来越便捷与高效,但这也给数字媒体侵权和资源非法占用等提供了便利,对互联网产业的安全与稳定产生了严重