论文部分内容阅读
随着手机、数据中心服务器以及庞大的互联网服务技术的发展,人工存储和处理数据的能力不断攀升,导致存储在各地的信息量的巨大增长,利用自动化系统高效地进行分类和标记这些信息变得越来越迫切,使得机器学习越来越重要。传统的机器学习中使用的是单实例单标签的数据假设,随着数据结构的复杂化,该假设已经不再适用于现实生活中。多标签学习中一个实例可以对应着多个标签的前提条件和多实例学习中多个实例对应一个标签的前提条件的出现更好的适应了现实生活中的场景。加强多标签学习和多实例学习的研究,对进一步促进机器学习发展,增强算法的实用性和提高模型效率等方面具有重要的意义。本文在已有的多标签分类和多实例分类的基础上,针对学习领域中发现的问题展开研究,主要工作如下:一、考虑到目前多标签数据集中数据不平衡问题。为了解决这个问题,我们提出了一个利用标签相关性的算法模型MLCI(multi-label learning model based on label correlation and imbalance)缓解多标签数据分布不平衡问题。模型通过耦合其他标签,将多标签数据集重构成多类别数据集,有效地避免单独处理海量的潜在子标签集合,减少了多标签数据集中标签不平衡的现象。同时,为避免过度依赖标签间相关性的影响,保持少见标签的独有性,模型还针对每个标签构建相应的二元分类器,以挖掘每个标签的特性,最后通过集成分类器,进行多标签数据的预测。本文提出的MLCI模型有效地缓解了数据集中复杂的标签不平衡问题,从理论分析和实验验证显示出MLCI的高效性。二、在多标签学习中,为进一步缓解标签问题为算法模型带来影响,提升多标签分类算法的性能,本文将迁移学习引入,提出了一个多标签度量迁移学习模型。该模型通过迁移学习的理念,利用实例的权重作为训练领域和测试领域分布的桥梁,缓解多标签数据集中不同领域之间同时出现的标签分布和实例分布不同的问题,为多标签分类的迁移学习打下基础。三、为了更好地挖掘多标签数据中标签空间内在的几何信息,本文在基于迁移学习的基础上,加入了度量学习,改良多标签迁移学习模型为MLMTL(multi-label metric transfer learning)。该方法在缓解领域间分布不同的问题后,还有效地保留了特征空间和标签空间的固有几何信息,在解决标签和实例双重分布不同问题的同时,提升了算法的性能。四、针对多实例学习中存在的分布不同问题,本文根据多标签度量迁移学习算法中应用到的技术基础进行技术拓展,提出了一种多实例度量迁移学习MIMTL(multi-instance metric transfer learning),缓解多实例数据中不同领域之间包级别分布不同的问题。模型利用度量迁移学习给训练领域中的多实例数据集中的包添加权重,构建两个领域之间包分布的桥梁。模型制定新的学习原则,用来调节类内和类间的参数,以此放宽严格的约束条件,然后利用加权包数据构建模型,解决了多实例学习模型中常见的参数过多的问题,并且提升运算效率。