生物信息学中多标号不平衡分类问题的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:inasy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标号不平衡问题是机器学习中的一类重要问题。许多实际问题如文本分类、生物信息学中的亚细胞定位等,都涉及到多标号不平衡问题。而传统的大多数分类器都是针对单标号平衡问题设计的,无法很好地处理多标号不平衡问题。 蛋白质亚细胞定位问题是生物信息学中的一个重要问题。由于蛋白质的亚细胞位置和它的功能密切相关,因此了解蛋白质的亚细胞定位对了解蛋白质的功能是非常有帮助的。但是由于使用传统的实验手段进行亚细胞位置的测定费时费力,因此研究用机器学习的方法根据蛋白质氨基酸序列信息进行亚细胞位置预测是非常必要的。然而亚细胞定位是一个典型的多标号不平衡问题,即部分位置的蛋白质数量远远多于其他位置,且一个蛋白质可能出现在多个亚细胞位置。大多数传统的学习算法都无法很好的解决该类问题,这给解决蛋白质亚细胞定位问题带来了一定的困难。 本文使用了最小最大模块化(M3)网络来解决亚细胞定位问题。M3网络是一种能够有效解决大规模复杂问题的分类器模型。它能够将复杂问题分解成一系列简单的容易解决的子问题,这些子问题相互之间是独立的,可以并行处理。在预测阶段,这些子问题的输出可以通过两条基本的规则合并起来,得到原问题的解。实验表明M3网络在解决亚细胞定位问题上比传统的SVM分类器在分类精度上有了一定的提高。尤其是对于那些很小的类,传统的SVM分类器仅能达到很低的准确率,而在使用了M3网络进行模块分解后,分类的准确率有了明显的提高。此外,实验还表明,M3网络在响应速度上比传统的分类器也有了明显的提高。而且M3网络还具有可以并行计算的特点,分解产生的子模块可以独立的并行计算,大大提高了计算速度。这个优势也是传统的分类不具备的。 同时还在M3网络的基础上提出了多种模块分解策略来提高M3网络分类的性能。这些方法包括超平面分解,PCA超平面分解和均等聚类分解。它们的特点是利用了样本在特征空间分布上的统计信息,从而有效地降低了子问题的复杂程度。此外,还针对亚细胞定位这个具体问题进行了研究,分析了其中蛋白质来源物种的分布信息,提出了根据物种分解的策略。实验表明,这几种分解策略在解决蛋白质亚细胞定位问题上无论是在分类的精度还是响应速度上都比简单的随机分解策略都有了一定的提高,有效地提高了M3网络的分类性能。尤其是按物种分解的策略,由于利用了蛋白质数据的先验知识,分类的精度比其他的几种策略都有一定的提高。
其他文献
学位
本文针对Netcool系列网管产品在ICBC网管升级项目中的实施,提出了基于Netcool事件机制的网元监控规划思想,简化了网管产品的实施部署难度,减轻了网管监控人员的定制负担,并且
无线传感器网络是在传感器技术、通信技术和计算机技术三者的基础发展起来的,是当今计算机领域的研究热点之一。拓扑控制是无线传感器网络研究的关键技术之一,而作为拓扑控制的
数据挖掘一直是数据库研究、开发和应用最活跃的分支之一。无论在研究领域还是商业应用,数据挖掘都取得了可喜的成果。但与此同时,数据挖掘也面临着许多问题的挑战。其中,数
随着企业本身对于分布式处理的需求及Internet信息网络的飞速发展,现在的网络信息系统对于数据交互效率、数据安全性以及系统的可扩展性等提出了更高的要求。现有的异构数据
计算机技术发展到今天,嵌入式系统的应用越来越广泛,嵌入式计算机在应用数量上远远超过了各种通用计算机。嵌入式系统是继IT网络技术之后,又一个新的技术发展方向。由于嵌入
信息化是知识经济的基础和未来社会经济的主要特征,医疗卫生领域信息化的研究将推动技术进步和社会革新。在医疗信息系统中,含自然语言表达式的时态信息起着关键性作用。然而
本文针对电力项目管理软件中基建期数据无法在生产期有效利用的问题,重点研究了将PM(项目管理)与EAM(企业资产管理)相结合的PIMS系统,并详细地阐述了这种PIMS系统的设计与实
搜索定位问题是P2P网络的核心问题之一,也是P2P网络研究的热点。P2P的搜索定位模型按照网络拓扑结构,主要分为四种:结构化的搜索模型,非结构化的搜索模型,混合结构的搜索模型和基
随着互联网和分布式系统的不断发展,出现了越来越多的组织组成联盟进行协同工作,并伴随出现越来越多的分布式协作系统(Decentralized Collaboration System)。在此系统中协作