论文部分内容阅读
蛋白质是一种有机大分子,是生命的物质基础,是构成细胞、承载生命活动的基本有机物。在蛋白质翻译过程中,氨基酸相互连接形成肽链,肽链经过螺旋、卷曲、折叠,形成前体蛋白。然而前体蛋白不具有活性,只有通过一系列的翻译后加工及修饰,才能获取生物学功能,这种化学修饰叫蛋白质翻译后修饰。蛋白质翻译后修饰类型多种多样,例如在蛋白质中加入各种官能团,化学键或者其他肽链等,蛋白质翻译后修饰在细胞功能和生物进程中起着重要的调控作用,例如蛋白质翻译后修饰可以调控细胞对外界环境的应答。一些研究表明,翻译后修饰的蛋白质所处细胞环境不同,其功能也有所不同,且翻译后修饰位点的异常和变异与疾病和癌症有密切的联系,因此对翻译后修饰位点的预测分析,了解不同细胞环境下其生物进程和机制是蛋白质组学研究中的重要课题。相较于传统的实验预测方法,计算预测方法因其简便、快速的特性,成为在蛋白质翻译后修饰识别问题中常用的方法。赖氨酸是一种由密码子AAA和AAG编码的α-氨基酸,化学式为HO2CCH(NH2)(CH2)4NH2,它是人体20种常见氨基酸中的一种。由于赖氨酸的特殊分子结构,它在翻译后很容易被修饰,并且发生在赖氨酸上的翻译后修饰类型有很多。针对赖氨酸上可发生的三种翻译后修饰(琥珀酰化修饰,甲酰化修饰和戊二酰化修饰),提出并创建新的基于机器学习的计算预测方法,有效地提升了对三种翻译后修饰位点的预测准确率,并对这三种翻译后修饰蛋白质数据进行蛋白质组学分析,挖掘其潜在的功能及特性。主要研究内容如下:(1)提出两种新的琥珀酰化位点预测方法,其中一种基于双层支持向量机分类器的集成学习的琥珀酰化位点预测方法—PSuccE,另一种为结合半监督学习方法和K均值聚类算法的琥珀酰化位点预测方法—SSKMSuc。为了解决正负样本不平衡问题,PSuccE使用Bootstrap Sampling策略提取不同的负样本子集,与正样本集结合,形成多个不同的训练样本子集。在每个数据子集内,融合多种序列特征编码方式,采取基于信息增益的两步特征选择方法,从整体特征空间中筛选最优特征子集进行建模。然后以所有预测模型的预测结果为新的特征,训练一个新的支持向量机分类器,作为最终的预测分类器。与其他预测器在独立测试集上进行预测性能比较,结果表明PSuccE的预测能力明显优于现有方法。对特征及方法步骤的分析表明,本研究采用的特征可以有效地反应琥珀酰化位点的特性且双层支持向量机分类器的集成学习可以全方面有效地提高分类器的预测性能。SSKMSuc通过融合邻近翻译后修饰信息和多种序列特征,建立新的赖氨酸琥珀酰化预测工具。采取K均值聚类算法对数据集进行处理,将数据分成5个聚类,对每个聚类采用基于随机森林的两步特征选择策略去除冗余特征,获取最优特征子集。在每个聚类内,基于半监督学习方法根据正样本信息从非琥珀酰化样本中选择与正样本数量相同的可靠负样本,最后利用支持向量机分类器进行建模。同现有预测器的预测性能比较分析表明SSKMSuc具有更良好的预测性能。邻近翻译后修饰信息的分析结果显示琥珀酰化修饰和乙酰化修饰及泛素化修饰可能存在相互依赖关系,且+7位置和-4位置的琥珀酰化修饰可能对中间赖氨酸位点琥珀酰化的形成产生一定的影响。通过对琥珀酰化蛋白质的KEGG分析,进一步验证了蛋白质琥珀酰化修饰对氨基酸降解和脂肪酸代谢有潜在影响,并且分析推测蛋白质琥珀酰化可能与亨廷顿疾病、帕金森疾病、阿尔兹海默症疾病等神经退行性疾病的发生有密切的关系。(2)针对蛋白质甲酰化位点预测问题提出一种结合半监督学习与K近邻算法的预测方法—dForml(KNN)-PseAAC。赖氨酸甲酰化是一种重要的翻译后修饰,由于现今数据库中记录的赖氨酸甲酰化数据数量较少,因此还没有建立对其预测的计算方法,据此提出一种基于半监督学习与K近邻算法的预测方法。dForml(KNN)-PseAAC根据信息熵,选择离散窗口对蛋白质序列进行截取,并采用三种有效的序列特征编码方法提取蛋白质甲酰化位点及非甲酰化位点周围的特征信息。该方法提出一种半监督学习方法选择更可靠的非甲酰化样本作为负样本进行建模,既准确地解决了正样本与负样本之间的严重失衡问题,也保证了预测模型的性能。对预测结果的比较分析验证了K近邻算法比其他常用机器学习算法更适合甲酰化位点预测,并且可以高效地从蛋白质中预测出甲酰化位点。通过对甲酰化蛋白的Gene Ontology分析,推测蛋白质甲酰化与蛋白质合成之间可能存在关联性。(3)提出一种新的蛋白质戊二酰化位点预测方法—DEXGBGlu。DEXGBGlu以极端梯度提升算法(XGBoost)作为分类器,并且用差分进化算法(DE)对XGBoost算法中的参数进行寻优。该方法采用多种序列特征提取蛋白质中赖氨酸位点周围能有效区分戊二酰化位点和非戊二酰化位点的信息。针对正负样本比例不平衡问题,首先应用Borderline-SMOTE(Borderline-Synthetic Minority Oversampling Technique)过采样方法合成正样本,扩充正样本的数量,使之与负样本数量相同,然后采用Tomeklinks方法对合并后的训练集做数据清洗,去除可能为噪音的数据。对预测方法及预测结果的分析表明差分进化算法提升了XGBoost的分类效果,Borderline-SMOTE结合Tomeklinks方法既解决了正负样本不平衡问题,也提高了DEXGBGlu的预测准确性,显著优于现有的其他几种蛋白质戊二酰化预测工具。