论文部分内容阅读
多标号不平衡问题是机器学习中的一类重要问题。许多实际问题如文本分类、生物信息学中的亚细胞定位等,都涉及到多标号不平衡问题。而传统的大多数分类器都是针对单标号平衡问题设计的,无法很好地处理多标号不平衡问题。
蛋白质亚细胞定位问题是生物信息学中的一个重要问题。由于蛋白质的亚细胞位置和它的功能密切相关,因此了解蛋白质的亚细胞定位对了解蛋白质的功能是非常有帮助的。但是由于使用传统的实验手段进行亚细胞位置的测定费时费力,因此研究用机器学习的方法根据蛋白质氨基酸序列信息进行亚细胞位置预测是非常必要的。然而亚细胞定位是一个典型的多标号不平衡问题,即部分位置的蛋白质数量远远多于其他位置,且一个蛋白质可能出现在多个亚细胞位置。大多数传统的学习算法都无法很好的解决该类问题,这给解决蛋白质亚细胞定位问题带来了一定的困难。
本文使用了最小最大模块化(M3)网络来解决亚细胞定位问题。M3网络是一种能够有效解决大规模复杂问题的分类器模型。它能够将复杂问题分解成一系列简单的容易解决的子问题,这些子问题相互之间是独立的,可以并行处理。在预测阶段,这些子问题的输出可以通过两条基本的规则合并起来,得到原问题的解。实验表明M3网络在解决亚细胞定位问题上比传统的SVM分类器在分类精度上有了一定的提高。尤其是对于那些很小的类,传统的SVM分类器仅能达到很低的准确率,而在使用了M3网络进行模块分解后,分类的准确率有了明显的提高。此外,实验还表明,M3网络在响应速度上比传统的分类器也有了明显的提高。而且M3网络还具有可以并行计算的特点,分解产生的子模块可以独立的并行计算,大大提高了计算速度。这个优势也是传统的分类不具备的。
同时还在M3网络的基础上提出了多种模块分解策略来提高M3网络分类的性能。这些方法包括超平面分解,PCA超平面分解和均等聚类分解。它们的特点是利用了样本在特征空间分布上的统计信息,从而有效地降低了子问题的复杂程度。此外,还针对亚细胞定位这个具体问题进行了研究,分析了其中蛋白质来源物种的分布信息,提出了根据物种分解的策略。实验表明,这几种分解策略在解决蛋白质亚细胞定位问题上无论是在分类的精度还是响应速度上都比简单的随机分解策略都有了一定的提高,有效地提高了M3网络的分类性能。尤其是按物种分解的策略,由于利用了蛋白质数据的先验知识,分类的精度比其他的几种策略都有一定的提高。