基于支持向量机的蛋白质序列信息提取及亚细胞定位研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:whb35750
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代与后基因时代的到来,海量功能未知、结构复杂的蛋白质序列信息涌入生物数据库。探索这些蛋白质序列的相关信息己成为信息学与生物学的热门研究方向。蛋白质在生物体中发挥的功能与其所处的亚细胞位置具有非常密切的关联性,所以,对蛋白质亚细胞的定位预测进行研究已成为生物信息学的重点内容。在这样的背景下,随着“互联网+”的推进,传统的生物实验方法早己无法满足现代研究的需求,以机器学习算法为代表的信息提取与处理方法及智能定位预测发挥了不可替代的作用。本论文利用机器学习算法研究蛋白质亚细胞的定位,结合所学专业中信息处理部分的相关知识,论文主要针对信息特征的提取算法和分类预测模型两个方面的内容进行了研究:(1)在现有方法的基础上,本文提出了一种改进型的伪氨基酸组成方法:新增加了9种特征来表达蛋白质序列,重新构造了特征表达模型。在对序列信息进行特征提取时,基于多特征融合的思想,结合自相关系数、熵密度法和所提新方法构成一种新的蛋白质特征向量表达模型,更进一步丰富了序列信息的表达。选择机器学习中泛化能力较强的支持向量机作为分类器,最终采用留一法在Gram-positive和Gram-negative两个数据集上进行交叉检验,并与传统方法所取得的结果进行对比,证实了所提新方法的实用性。(2)引入PsePSSM矩阵提取特征信息以表征氨基酸在进化过程中发生突变的可能;根据氨基酸的物化性质将氨基酸划分为6个大类,为进一步挖掘氨基酸残基的局部位置信息对蛋白质序列总体的影响,引入了先对序列进行切分再输入分类器进行预测的思想。新方法采用改进型PseAAC、三肽组成和基于PsePSSM矩阵提取的信息三者融合,共同进行蛋白质序列特征提取。为了解决单一分类器在分类预测中不可避免的局限性,本文进一步优化了分类算法模型,通过并联多个支持向量机构建集成分类器,并选择了两个包含多位点蛋白的数据集进行验证。结果表明:与单一分类器相比较,通过构建集成分类器可更进一步提升预测性能。
其他文献
当前司法实践中,对于父母处分未成年子女财产行为效力的认定,呈现出有效与无效两种观点。基于这类案件的特点,人民法院在审理这类案件时,除立足于《民法典》第143条的规定之外,还侧重于对被处分财产所有权主体、父母处分未成年子女财产时的主观目的、《民法典》第35条第1款的规范性质、父母不当处分未成年子女财产行为的定性等因素的分析。在此基础上,可归纳出父母处分未成年子女财产行为效力认定的思路——首先,查明被
近二十年来,基于MOF材料的多相催化剂引起了大量关注。在早期,MOF催化剂主要专注于精细化学品的合成。近几年,用于固-气相催化的MOF基催化剂也已经受到广泛研究。CuO-CeO_2作为一种价格低廉且具有优越的储放氧及CO吸附能力的非贵金属催化剂,在低温催化CO氧化方面表现出良好的性能。本课题将一种高比表面积、高稳定性的Zr基MOF材料UiO-66作为载体,采用浸渍法负载传统CuO-CeO_2复合催
民办高等教育是我国高等教育的重要组成部分。据统计,2018年我国共有民办普通高等学校750所,在校生649.60万人。民办高校在增加高等教育机会供给、满足人民群众多样性教育需
Al-Zr合金的时效析出相Al_3Zr在高温下动力学稳定,具有较好的耐热性能、析出强化性能及抑制再结晶的能力。然而Zr原子在Al基体中的扩散速率较低,时效过程中难以充分析出,固溶的Zr原子明显地降低了Al合金的电导率;同时,Al-Zr合金的时效析出相Al_3Zr在基体中分布不均匀,且时效后L1_2结构Al_3Zr数量密度较低,影响了Al-Zr合金高温下抗蠕变性能和再结晶性能。添加微合金化元素Yb是
近些年来,波浪能利用已经成为全球范围的研究热点,波浪能发电装置种类繁多,层出不穷,各国学者都在积极探索高效转换能量的波浪装置和装置的分析方法。本文以海蘑菇波能转换系
平行语料库是机器翻译、跨语言检索和跨语言自动问答等自然语言处理(Natural Language Processing,NLP)任务的核心基础资源。平行语料库的规模和质量决定了这些系统的性能上
海洋平台作为人们开发深海资源的装备,容易受到恶劣海洋环境的影响,导致其工作期间自身剧烈的运动,这对海洋平台的工作环境造成不利的影响。所以海洋平台设计初期对其遭受的
高比容量负极材料在提高锂离子电池能量密度和功率密度中起着关键作用。研究者通常采用构建不同纳米结构的活性物质,并在其中加入过量导电添加剂的方法,来解决过渡金属氧化物负极材料电导率低、活性物质在充放电过程中存在粉化的问题。然而,随着活性物质振实密度的降低和过量导电添加剂的加入,电极材料的能量密度会随之降低;而且,纳米结构会使材料表面更易生成过量的固态电解质界面层,使电池首圈库伦效率低,影响其电化学性能
在人体所有生物特征中,虹膜具有极强的稳定性与区分性,故而虹膜识别系统在生活中也逐渐普及。然而,很多虹膜识别系统在抵御各类欺骗攻击时仍然无法保证十足的可靠性,从而阻碍
由于具有密排六方结构,金属钛呈现高度的各向异性力学行为。钛的塑性变形相当复杂,其中滑移和孪晶在整个塑性变形中起着至关重要的作用。本文将晶体塑性理论模型与有限元方法相结合,选取纯钛晶体作为研究对象,从微观的晶粒尺度上模拟晶体结构的塑性变形过程,建立了微观塑性变形机制和宏观力学响应的关系。与经典的各向同性本构关系相比,晶体塑性理论将金属的塑性变形归结为位错的滑移和变形孪晶,所以晶体塑性理论是模拟晶体内