基于机器学习的赖氨酸翻译后修饰位点的计算预测与分析

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:raylet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一种有机大分子,是生命的物质基础,是构成细胞、承载生命活动的基本有机物。在蛋白质翻译过程中,氨基酸相互连接形成肽链,肽链经过螺旋、卷曲、折叠,形成前体蛋白。然而前体蛋白不具有活性,只有通过一系列的翻译后加工及修饰,才能获取生物学功能,这种化学修饰叫蛋白质翻译后修饰。蛋白质翻译后修饰类型多种多样,例如在蛋白质中加入各种官能团,化学键或者其他肽链等,蛋白质翻译后修饰在细胞功能和生物进程中起着重要的调控作用,例如蛋白质翻译后修饰可以调控细胞对外界环境的应答。一些研究表明,翻译后修饰的蛋白质所处细胞环境不同,其功能也有所不同,且翻译后修饰位点的异常和变异与疾病和癌症有密切的联系,因此对翻译后修饰位点的预测分析,了解不同细胞环境下其生物进程和机制是蛋白质组学研究中的重要课题。相较于传统的实验预测方法,计算预测方法因其简便、快速的特性,成为在蛋白质翻译后修饰识别问题中常用的方法。赖氨酸是一种由密码子AAA和AAG编码的α-氨基酸,化学式为HO2CCH(NH2)(CH2)4NH2,它是人体20种常见氨基酸中的一种。由于赖氨酸的特殊分子结构,它在翻译后很容易被修饰,并且发生在赖氨酸上的翻译后修饰类型有很多。针对赖氨酸上可发生的三种翻译后修饰(琥珀酰化修饰,甲酰化修饰和戊二酰化修饰),提出并创建新的基于机器学习的计算预测方法,有效地提升了对三种翻译后修饰位点的预测准确率,并对这三种翻译后修饰蛋白质数据进行蛋白质组学分析,挖掘其潜在的功能及特性。主要研究内容如下:(1)提出两种新的琥珀酰化位点预测方法,其中一种基于双层支持向量机分类器的集成学习的琥珀酰化位点预测方法—PSuccE,另一种为结合半监督学习方法和K均值聚类算法的琥珀酰化位点预测方法—SSKMSuc。为了解决正负样本不平衡问题,PSuccE使用Bootstrap Sampling策略提取不同的负样本子集,与正样本集结合,形成多个不同的训练样本子集。在每个数据子集内,融合多种序列特征编码方式,采取基于信息增益的两步特征选择方法,从整体特征空间中筛选最优特征子集进行建模。然后以所有预测模型的预测结果为新的特征,训练一个新的支持向量机分类器,作为最终的预测分类器。与其他预测器在独立测试集上进行预测性能比较,结果表明PSuccE的预测能力明显优于现有方法。对特征及方法步骤的分析表明,本研究采用的特征可以有效地反应琥珀酰化位点的特性且双层支持向量机分类器的集成学习可以全方面有效地提高分类器的预测性能。SSKMSuc通过融合邻近翻译后修饰信息和多种序列特征,建立新的赖氨酸琥珀酰化预测工具。采取K均值聚类算法对数据集进行处理,将数据分成5个聚类,对每个聚类采用基于随机森林的两步特征选择策略去除冗余特征,获取最优特征子集。在每个聚类内,基于半监督学习方法根据正样本信息从非琥珀酰化样本中选择与正样本数量相同的可靠负样本,最后利用支持向量机分类器进行建模。同现有预测器的预测性能比较分析表明SSKMSuc具有更良好的预测性能。邻近翻译后修饰信息的分析结果显示琥珀酰化修饰和乙酰化修饰及泛素化修饰可能存在相互依赖关系,且+7位置和-4位置的琥珀酰化修饰可能对中间赖氨酸位点琥珀酰化的形成产生一定的影响。通过对琥珀酰化蛋白质的KEGG分析,进一步验证了蛋白质琥珀酰化修饰对氨基酸降解和脂肪酸代谢有潜在影响,并且分析推测蛋白质琥珀酰化可能与亨廷顿疾病、帕金森疾病、阿尔兹海默症疾病等神经退行性疾病的发生有密切的关系。(2)针对蛋白质甲酰化位点预测问题提出一种结合半监督学习与K近邻算法的预测方法—dForml(KNN)-PseAAC。赖氨酸甲酰化是一种重要的翻译后修饰,由于现今数据库中记录的赖氨酸甲酰化数据数量较少,因此还没有建立对其预测的计算方法,据此提出一种基于半监督学习与K近邻算法的预测方法。dForml(KNN)-PseAAC根据信息熵,选择离散窗口对蛋白质序列进行截取,并采用三种有效的序列特征编码方法提取蛋白质甲酰化位点及非甲酰化位点周围的特征信息。该方法提出一种半监督学习方法选择更可靠的非甲酰化样本作为负样本进行建模,既准确地解决了正样本与负样本之间的严重失衡问题,也保证了预测模型的性能。对预测结果的比较分析验证了K近邻算法比其他常用机器学习算法更适合甲酰化位点预测,并且可以高效地从蛋白质中预测出甲酰化位点。通过对甲酰化蛋白的Gene Ontology分析,推测蛋白质甲酰化与蛋白质合成之间可能存在关联性。(3)提出一种新的蛋白质戊二酰化位点预测方法—DEXGBGlu。DEXGBGlu以极端梯度提升算法(XGBoost)作为分类器,并且用差分进化算法(DE)对XGBoost算法中的参数进行寻优。该方法采用多种序列特征提取蛋白质中赖氨酸位点周围能有效区分戊二酰化位点和非戊二酰化位点的信息。针对正负样本比例不平衡问题,首先应用Borderline-SMOTE(Borderline-Synthetic Minority Oversampling Technique)过采样方法合成正样本,扩充正样本的数量,使之与负样本数量相同,然后采用Tomeklinks方法对合并后的训练集做数据清洗,去除可能为噪音的数据。对预测方法及预测结果的分析表明差分进化算法提升了XGBoost的分类效果,Borderline-SMOTE结合Tomeklinks方法既解决了正负样本不平衡问题,也提高了DEXGBGlu的预测准确性,显著优于现有的其他几种蛋白质戊二酰化预测工具。
其他文献
尖锐湿疣、传染性软疣、扁平疣,目前患病率高,冷冻、激光及抗病毒治疗疗效欠佳,尤其尖锐湿疣好发于外阴、肛周等温暖潮湿部位。并有少数病例可转变为鳞状上皮癌。我们用抗病毒药结合外用中药洗患处,具有较好疗效。 一、一般资料:三种病共133例。尖锐湿疣63例,其中男性31例,年龄最大50岁,最小19岁;女性32例,最大42岁,最小20岁。扁平疣40例,男女各
期刊
测土配方施肥是以土壤测试和肥料田间试验为基础,根据作物需肥规律,在施入有机肥料的基础上,提出氮、磷、钾和微量肥料的施入时间、方法和数量。本文介绍了建平县自然、气象条件和果园施肥存在问题、果实的营养特点,阐述了测土配方施肥有关技术等。
课堂是实施素质教育和新课程改革的主阵地。而创建和谐高效的课堂教学就要以教研组建设为突破口。本研究是帮助教师提高教学研究水平的一种切实可行的途径。教研组在校本研究中起着至关重要的作用,它是学校基层的管理实体,是学校的主力军,也是提高教学质量的催化剂。因此,加强教研组建设,充分发挥教研组作用,从而打造出高效课堂。教研组活动应尽可能多地针对学生知识掌握,进行方法与技巧点拨,能力训练与提升,思想引领与激励
蝗虫是昆虫纲Insecta、直翅目Orthoptera、蝗总科Acridoidea昆虫的统称,是一类重要的农牧业害虫。因其分布广泛、食量大、食性广、繁殖能力强、迁移速度快,成群的蝗虫可对农牧业产生巨大危害。蝗虫肠道中栖息着大量的微生物,这些微生物与宿主相互作用,相互影响,形成一种协同进化的关系,在此过程当中,微生物与微生物之间也形成了多种多样的种群结构以及生物学功能。研究蝗虫对纤维素的消化及肠道微
里德堡原子既具有相对较长的寿命,又具有长程的原子间相互作用,因此成为了量子计算和量子模拟最有希望的候选者之一。无论是里德堡阻塞效应,还是里德堡反阻塞效应,都已经在量子信息处理中被广泛研究。在此基础上,非传统里德堡泵浦机制可以提供不同于里德堡阻塞和反阻塞的效应,即处于相同基态的原子保持稳定,处于不同基态的原子共振激发。在本文中,我们主要研究基于里德堡原子的非传统里德堡泵浦机制,结合开放系统的有效动算
反褶积、Q补偿、谱白化、小波变换等方法在提高地震资料分辨率的同时往往会放大噪声,降低地震资料的信噪比。由于地震随机噪声服从高斯分布且其本身并无方向性,因而在Shearlet域可将有效信号与随机噪声分开。通过Shearlet变换将地震信号转换到Shearlet域,对Shearlet域系数进行合理的补偿后,再做Shearlet反变换,可实现对地震资料的提高分辨率处理。结合Shearlet变换的这两个特
古人云:"亲其师,信其道。"让每个学生都感到老师喜欢他,或者说做出喜欢学生的样子,是很有必要的。学生喜欢老师了,才有可能向老师倾吐心事,才会把专注的精神放在老师的课上,才能真正实现师生关系的和谐。相反,师生之间彼此谁也看不惯谁,相互只能生出厌恶,老师会不问青红皂白地训斥学生的所有过失,学生则会视老师为"敌人",给老师贴上"恶人"的标签。如何让学生感觉到老师对他(她)的喜欢,愿意亲近老师呢,我
期刊
随着现代科学信息技术的发展,教育和心理评估的测试逐渐由传统的纸笔考试(paper-and-pencil tests)转变为基于计算机平台的测验(computer-based assessments)。随着计算机化测验的广泛应用,记录并呈现学生在题目上的反应过程的信息变得十分容易。学生在题目上表现的作答信息即反应过程数据,被记录到计算机后台的日志文件中。反应过程数据包括反应时间数据,行为过程数据,以
大规模多重检验的问题产生于许多科学研究领域。例如,在全基因组关联分析(GWAS)中,通常需要进行数以万计的检验以寻找与复杂疾病或性状相关联的单核苷酸多态性(SNPs)。一些其它的例子包括:神经影像数据分析[72]、微阵列数据分析[51,52]、空间数据分析[82]等等。到目前为止,一些多重检验方法已经被广泛地应用于众多科学领域。然而,在大规模多重检验中仍然存在一些棘手的问题需要解决。首先,日益产生
翅二型是昆虫种内形态分化的常见现象,广泛存在于双翅目、半翅目、鞘翅目以及直翅目等昆虫类群中,主要包括“天生型翅二型”和“落翅型翅二型”两类。翅型分化是昆虫适应环境变化而产生的生存应对策略,这种形态发育可塑性一直是众多昆虫学者关注的焦点,探究昆虫翅型分化的分子生物学机制可为理解昆虫适应性进化提供科学解释。现有研究多集中在飞虱、蚜虫等“天生型翅二型”的少数昆虫种类中,对于直翅目和“落翅型翅二型”昆虫的