膜蛋白类型预测中降维算法与不平衡问题的研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:gjj19901005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
膜蛋白的类型对于了解其结构和功能具有重要意义。随着后基因组时代的到来,传统的通过生物实验进行膜蛋白类型预测的方法逐渐不再适用。基于机器学习的方法因其高效率、低成本,成为替代传统生物实验的一种新方法。鉴于机器学习方法在膜蛋白类型预测中存在着多种优势,本文将对其进行深入研究,具体包括以下几个方面:1.氨基酸组成信息、物化信息和进化信息是蛋白质序列的三种基本信息,本文从这些信息出发,构建了丰富有效的特征表达方法。主要有局部氨基酸组成(LAAC)、局部二肽组成(LDC)、三肽组成(TC)、物化指数和(SPPI)、自相关函数(ACF)、削减位置特异性评分矩阵(RPSSM)、进化差异位置特异性评分矩阵(EDP)和伪位置特异性评分矩阵(PsePSSM)。其中,物化指数和(SPPI)是本文基于AA index数据库提出的一种新的特征表达方法。2.经过特征表达过程后会出现两个问题:高维特征问题和特征异质性问题。当处理高维特征问题时,本文提出了基于最大信息系数和遗传算法的两阶段特征选择算法(MIC-GA)。MIC-GA能够同时得到对分类最为有效的特征子集和对应的最优分类器参数。实验结果证实了 MIC-GA算法在去除冗余特征和提高分类器性能方面的有效性。当处理特征异质性问题时,本文将特征异质性问题转化为分类器异质性问题。利用Stacking集成方法能够很好地处理分类器异质性问题的特点,间接地解决了特征异质性问题。3.膜蛋白数据集经常存在着严重的不平衡问题,这会导致少数类别的样本在预测过程中精度偏低。本文通过采用SMOTE过采样与Tomek Link欠采样相结合的重采样技术,在训练前对数据进行预处理。由于SMOTE方法是在数据维度较高时,会产生大量的噪音数据。因此,本文在数据重采样前,通过改进原始的ReleifF算法,基于模糊隶属度提出了FReliefF特征选择算法(Fuzzy-ReleifF),对数据的特征进行维度约减。实验结果说明了本方法的有效性。
其他文献
GPS以其全天候、高精度、实时性等优点广泛应用于地壳形变、地球动力学、地震学等领域研究中。随着全球永久性GPS连续观测站的密集建设,以及GPS数据处理精度的不断提高,GPS能
随着下一代测序技术(Next Generation Sequencing,NGS)的发展和逐步普及,基因测序变得越来越快速,费用也越来越亲民。基因组序列数据正以爆炸性的速度扩增,因而产生了海量基因组序列数据。传输,存储,处理和分析这些数据的时耗和费用日渐成为制约基因组学和生物医学发展的瓶颈。虽然现有许多通用的数据压缩算法和软件,但由于不能考虑和处理基因组序列数据的固有特性,它们不能高效地压缩基因组
间断神经网络因其激励函数的不连续性而具有更丰富的动力学行为,诸如全局有限时间稳定与同步等。本文将随机semi-Makovian过程引入到间断神经网络中,主要研究了具有semi-Makovian切换和间断激励函数的神经网络全局随机有限时间同步问题。主要内容包括:1.针对具有semi-Makovian切换的随机非线性系统,应用Lyapunov-Krasovskii泛函方法、随机分析理论以及不等式分析方
随着复杂网络研究的深入发展和研究领域的不断拓展,将复杂的系统抽象成复杂网络来研究,建立系统模型再结合复杂网络系统理论研究具体问题,已成为研究复杂系统的重要方法之一。复杂网络系统节点的同步现象普遍存在于各种复杂系统中,因此研究复杂网络的同步控制问题具有很重要的实际意义和理论价值。随着科学技术的发展,在控制系统中使用计算机有效地控制设备已成为一种普遍的趋势。计算机输入信号必须是离散的,而采样控制就是把
抗冻蛋白在多个领域都具有广阔的应用前景。随着后基因组时代的到来,各种数据库收录的蛋白质序列数据日趋完善,促进了生物信息学的发展。当前,许多研究小组致力于研究生物序列提取算法、特征选择以及分类算法的研究,并成功将其应用蛋白质结构和功能谱的分类和预测中,但在抗冻蛋白领域鲜有研究。基于此,本文主要针对抗冻蛋白的特征表达方式以及特征选择方法进行了深入的研究,并从多方面进行试验加以论证。本文的主要工作总结如
基因编辑技术(CRISPR/Cas9)作为一种新的生物技术不仅前景可观而且意义重大。但是将该技术运用于人类的生殖细胞却面临着较大伦理风险和安全隐患。更为严重的是,滥用该技术甚至可能会加剧社会分化和不平等,并引发基本伦理道德间的冲突,危及人类尊严。“贺建奎事件”不仅挑战了我们一直遵循的伦理道德,而且更加反映出了我们的法律缺位问题。从私法领域的角度来看,该事件不仅引起了我们对于基因权利保护的重新思考,
在中文信息处理领域中,相比分词、命名实体识别、词性标注等一些浅层自然语言处理任务来说,句法分析、机器翻译、自然语言理解、自然语言生成等深层次自然语言处理任务也越来越受研究者关注。句法分析是自然语言处理技术中的重要一环,它判断输入的词语序列的构成是否满足给定语法,分析出合乎语法的句子结构,并将分析结果转换成一棵句法树。根据句法分析结果,计算机可以深刻地理解语句结构、词语间的关系等。这样更便于计算机自
在光学元件检测过程中,为了避免对光学元件二次磨损,采用光学干涉法实现非接触检测是理想的光学元件面形偏差检测方法,本文主要对球面光学元件面形偏差非接触检测的软件部分
随着NBA、CBA篮球联赛的推广,网络短视频的兴起,互联网中的篮球视频越来越多。同时篮球转播需要人工实时剪辑镜头回放,网络短视频也需要人工剪辑精彩片段,这些繁琐的工作需要消耗大量人力。本文通过对篮球运动视频中每个时间段发生的运动行为进行整体定位分类,并对每一时刻发生的子动作做出单独分类来实现智能解析比赛,从而辅助人剪辑感兴趣的篮球运动片段。目前针对感兴趣视频片段定位的解决方案主要针对简单场景,直接
细胞内微环境的参数,包括了粘度、极性、温度、低氧-常氧环境和酸-碱状态。由于细胞内微环境的分布是不均匀的,所以在不同的位置具有不同的参数组成。在细胞质、亚细胞器和膜系统中,各个位置的微环境对于物质在细胞内的转运,各种信号的转导,生物大分子之间的相互作用和细胞代谢率等各种生理过程中都起着重要作用。基于对微环境中粘度识别的需求,本文设计并合成了一个以1,8-萘酰胺衍生物为母体,对线粒体定位的新型粘度近