改进的蛋白质相互作用位点预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yangqixun123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质相互作用位点的预测是当前的一个研究热点,它要研究的内容是确定在蛋白质-蛋白质的相互作用中,某一条链上哪些残基参与了作用。该研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。  目前研究人员预测蛋白质相互作用位点时所使用的特征向量主要有空间或序列上相邻的残基的序列谱、溶剂可及表面积、疏水性、进化保守性等,所使用的算法主要是支持向量机和人工神经网络。  本文在选取出待考察的蛋白质链后,计算出相互作用的位点用于正反例标记,提取出常用的特征,然后在对现有方法大量研究的基础之上,实现了一个已有算法,并从以下三个方面对前人的工作进行了改进:  考虑到蛋白质在二级结构不同的残基上发生相互作用的概率可能不一样,本文在现有方法所考虑的特征中引入二级结构信息作为新的特征。当在序列谱和相对溶剂可及表面积的基础上引入二级结构信息时,分类效果变得更好,当在此基础上再结合残基的疏水性信息和残基进化的保守性时,结果略有下降。  由于蛋白质链中相互作用位点的数量远远小于非相互作用位点的数量,导致训练数据中正反例比例不平衡,本文在用支持向量机分类时引入了正反例的权重,将正例的权重设为反例数与正例数的比值,将反例的权重设置为1。对同样的特征向量,对正例加权后比未加权时效果均有提高。  由于支持向量机在分类时对每一类支持向量只取一个代表点,而有时一个代表点不能很好地代表该类,因此我们将支持向量及与最邻近算法相结合,对离最优分类面比较远的数据使用支持向量机,近的使用最邻近算法。此时最邻近算法在计算距离时不是使用传统的欧式距离,而是一个以核函数为参数的计算方法。这个新算法以表面残基在序列上相邻的残基的序列谱和表面可及面积为特征向量对蛋白质残基进行分类,所得到的结果与用原有的支持向量机相比,正确率和精度都有提高,但是召回率稍有下降。当对新算法中的最近邻算法引入权重以后,各项指标都有了提高。
其他文献
随着计算机网络的迅猛发展,网络的安全问题也越来越引起人们的重视。防火墙作为一种有效的安全防护措施被广泛应用于各种类型的网络当中。但是传统的防火墙是根据一些事先规
移动Ad Hoc网络(MANET)由移动的无线节点组成,广泛的应用在灾难恢复,战争,突发事件等场合。由于MANET没有固定的拓扑结构和网络主干,网络中的各个节点都要同时充当主机和路由
应用层VPN作为一种新兴的VPN解决方案,已经逐渐成为实现远程安全访问的最佳方式,也为网络到网络的VPN实现提供了新的解决途径。本文以应用层VPN为研究对象,首先介绍了SSL协议
本文以“上海-巴符州科技经济信息通道”项目为依托,分析、设计和实现了基于黎曼空间模型的个性化网络信息检索系统。系统实现了自动识别用户兴趣、自动生成用户模型,生成检索
机器博弈是人工智能领域公认的极具挑战性的科研方向之一,它的研究为人工智能带来了很多重要的方法和理论,产生了广泛的社会和学术影响。迄今为止,机器博弈已经在二人完备信息方
本文以集成电子商务软件GECIS开发项目为背景,构造一个基于SSL协议的表单数字签名软件构架模型,为电子商务提供更高安全保障.整个研制工作贯穿基于三层体系结构的构件化软件
嵌入式Linux的研究之所以成为当今操作系统研究的热点,是因为它的应用蕴含着巨大的商业价值.嵌入式系统之间差别很大,掌上电脑(PDA)、机顶盒、手机、数码相机、数字电视、家
传感器网络是由大量低成本、低能耗、体积小且具有一定计算能力和组网能力的传感器节点组成。传感器节点一般依靠电池供电,其电能有限,并且传感器节点一旦配置后,由于其工作
随着中国石油勘探与生产公司信息化建设的不断发展,需要建设一个勘探与生产综合信息管理系统来提高中国石油勘探与生产公司高层管理决策的及时性和科学性。 论文来源于中国
在数据库系统和计算机视觉两大研究领域的共同推动下,图像检索技术己逐渐成为一个非常活跃的研究领域。基于内容的图像检索不同于传统的基于文本的图像检索,它实际上是一种模