论文部分内容阅读
蛋白质相互作用位点的预测是当前的一个研究热点,它要研究的内容是确定在蛋白质-蛋白质的相互作用中,某一条链上哪些残基参与了作用。该研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。 目前研究人员预测蛋白质相互作用位点时所使用的特征向量主要有空间或序列上相邻的残基的序列谱、溶剂可及表面积、疏水性、进化保守性等,所使用的算法主要是支持向量机和人工神经网络。 本文在选取出待考察的蛋白质链后,计算出相互作用的位点用于正反例标记,提取出常用的特征,然后在对现有方法大量研究的基础之上,实现了一个已有算法,并从以下三个方面对前人的工作进行了改进: 考虑到蛋白质在二级结构不同的残基上发生相互作用的概率可能不一样,本文在现有方法所考虑的特征中引入二级结构信息作为新的特征。当在序列谱和相对溶剂可及表面积的基础上引入二级结构信息时,分类效果变得更好,当在此基础上再结合残基的疏水性信息和残基进化的保守性时,结果略有下降。 由于蛋白质链中相互作用位点的数量远远小于非相互作用位点的数量,导致训练数据中正反例比例不平衡,本文在用支持向量机分类时引入了正反例的权重,将正例的权重设为反例数与正例数的比值,将反例的权重设置为1。对同样的特征向量,对正例加权后比未加权时效果均有提高。 由于支持向量机在分类时对每一类支持向量只取一个代表点,而有时一个代表点不能很好地代表该类,因此我们将支持向量及与最邻近算法相结合,对离最优分类面比较远的数据使用支持向量机,近的使用最邻近算法。此时最邻近算法在计算距离时不是使用传统的欧式距离,而是一个以核函数为参数的计算方法。这个新算法以表面残基在序列上相邻的残基的序列谱和表面可及面积为特征向量对蛋白质残基进行分类,所得到的结果与用原有的支持向量机相比,正确率和精度都有提高,但是召回率稍有下降。当对新算法中的最近邻算法引入权重以后,各项指标都有了提高。