基于表征学习的氨基酸序列分析及膜蛋白和可溶酶性质预测

来源 :厦门大学 | 被引量 : 0次 | 上传用户:haha123456hehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在人类的生命活动中起了十分重要的作用,可是天然的蛋白质未必能完全满足人类的需求。通过重组和突变等方法可以产生大量新的蛋白质,根据蛋白质的属性可以从中筛选出对人类有利的蛋白质。因此,蛋白质属性预测在相关研究工作中至关重要。直观上,我们可以进行生物实验以测定蛋白质的属性,但这种方法时间和金钱上的代价都太大,基本上不可能对新产生的蛋白质一一测定。但是,我们可以相对容易地获取新蛋白质的氨基酸序列。因此,如果能够从蛋白质的氨基酸序列来预测蛋白质的属性,就会带来极大便利。对此,本实验在视紫红质通道蛋白、细胞色素P450酶、类囊体蓝藻视紫红质和环氧化物水解酶这四种蛋白质数据集上,通过表征学习提取氨基酸序列特征,并结合其理化性质,构建回归模型,分别预测质膜定位、热稳定性、光吸收峰波长和对映选择性这四个属性,主要工作有如下三个方面:首先,将基于遗传算法的进化神经网络(ENN)和自然语言处理主流模型doc2vec,BERT分别对同样的蛋白质序列做表征学习来提取特征,然后使用同一种回归器高斯过程回归(GPR)预测蛋白质属性。根据预测性能,比较表征学习能力。基于多种评价指标,在四种蛋白质数据集上分析比较后,得到性能最佳的表征学习模型,BERT-prot。其次,将BERT-prot辅以188D氨基酸理化特征构建算法,结合随机森林(RF)、k近邻(KNN)、决策树(DT)和GPR等不同的回归模型来预测四种蛋白质性质,并针对每一种蛋白质数据集构建最佳回归预测模型。为了验证模型的性能,本文与己有文献的方法在多个评价指标上都做了比较。最后,搭建了四种蛋白质性质预测系统。这样,用户只需要输入蛋白质的氨基酸序列和想要预测的性质,就能得到对应性质的高质量预测值。通过对多种表征学习模型结合不同回归算法进行比较,为每一种属性预测任务都构建了最佳模型,最终在所有评价指标上均己超过已有文献中的结果。在质膜定位任务上,BERT-prot结合RF性能最佳;BERT-prot拼接188D特征结合DT算法在光吸收峰波长任务上表现最优;BERT-prot结合GPR和KNN则分别在热稳定性和对映选择性预测上实现了最好结果。
其他文献
仲丁醇是一种重要的化学品,可用于甲乙酮、润滑剂、染料、香料的生产,最新研究表明,仲丁醇可代替MTBE与汽油混合,是非常理想的汽油调和组分,然而成熟的仲丁醇生产工艺主要为
目的:建立小鼠肩袖损伤模型,观察骨髓刺激和辛伐他汀对损伤处炎症反应程度和生物力学强度的影响,评估骨髓刺激联合辛伐他汀对小鼠肩袖腱骨愈合的作用。方法:将48只健康小鼠随机分为4组,均建立左肩关节冈上肌腱止点离断模型。治疗A组(辛伐他汀治疗组,n=12):造模后即刻行修复术,将冈上肌腱原位缝合于肱骨大结节足印区,术后每日予5.2mg/kg辛伐他汀混悬液灌胃;治疗B组(骨髓刺激治疗组,n=12):造模后
过去的几十年,新技术改变了数据收集的方式,现在高维数据已越来越常见.因子模型由于能够有效地从高维数据中提炼信息而被广泛关注.在因子分析研究中,必须作出许多决策,其中一个非常重要的是选择公共因子个数.本文研究的是近似因子模型公共因子个数的ED估计方法中调节参数的选择问题.与一般的因子模型相比,近似因子模型(可简称近因子模型)具有更广泛的应用性.首先数据类型针对的是面板数据,面板数据可以克服时间序列分
随着社会经济的发展,交通运输对道路的要求越来越高,许多的重要交通干道已无法满足当前需要,所以道路拓宽工程逐渐成为了当今热议的话题。伴随着道路拓宽工程的问题就是新旧
有研究发现,乳酸菌在发酵过程中分泌的酶会使物质化学结构发生变化,产生促进健康的各种代谢产物(生物转化)。并且有些乳酸菌发酵对果蔬中多酚类化合物的转化、抗氧化活性生物利用度等方面显示出积极作用。本文以抗氧化为指标,探究了六种常见乳酸菌发酵蓝莓的最佳发酵条件。通过单因素和响应面试验结果所得:鼠李糖乳杆菌最佳发酵条件为发酵温度33℃、发酵时间23 h、初始接种量3.6%;双歧杆菌最佳发酵条件为发酵温度3
出砂是指地层砂粒随采出液运移出来的现象,出砂本质归结于地层承受压力值超限。出砂影响主要包括造成井下、井口采油设备的磨损和腐蚀,缩短其使用寿命;井眼失稳而导致套管挤
新型运载火箭大多采用复合材料整流罩,不仅具有轻质、耐高温、抗疲劳等优点,还降低了航天器的冗余质量,提高了有效载荷比。随着运载火箭技术朝着大推力、大直径比发展,腔内中低频噪声问题愈发突出,增加了精密仪器等有效载荷损坏的风险,复合材料整流罩腔内声学特性及降噪措施需深入研究。通常有效载荷放置于整流罩圆柱段,本文以复合材料圆柱壳结构为研究对象,采用仿真分析与实验测试相结合的方法,分析了0-1000 Hz中
MCPTT(Mission Critical Push to Talk,关键任务一键通)是3GPP(3rd Generation Partnership Project,国际标准组织第三代合作伙伴计划)标准组织于2016年提出的新一代宽带数字集群协议,MCPTT是一种运行在LTE(Long Term Evolution,长期演进)网络上的应用层服务。MCPTT数据业务主要包括登录、附属、短信息、长
神经元的同步放电活动是神经系统进行接收信号、传递信号、整合信号的主要方式。近些年来,引发了科研人员的广泛研究。神经系统中充满了噪声,噪声的存在影响了神经振子集群的
目的:对述情障碍与抑郁之间的关系进行验证,以此为理论基础设计一套针对述情障碍干预的团体心理辅导方案,探讨基于述情障碍干预设计的团体心理辅导对于缓解高中生抑郁状况的效果。方法:采用随机抽样的方法,随机抽取郑州市某高中高一至高三年级的学生共1196人参与问卷调查,采用TAS-20量表、CES-D量表评估研究对象的述情障碍以及抑郁得分,采用团体心理辅导干预的方法对高中生的抑郁状况进行干预,并对干预效果进