多标签及多实例数据的分类模型算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:arthurpzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着手机、数据中心服务器以及庞大的互联网服务技术的发展,人工存储和处理数据的能力不断攀升,导致存储在各地的信息量的巨大增长,利用自动化系统高效地进行分类和标记这些信息变得越来越迫切,使得机器学习越来越重要。传统的机器学习中使用的是单实例单标签的数据假设,随着数据结构的复杂化,该假设已经不再适用于现实生活中。多标签学习中一个实例可以对应着多个标签的前提条件和多实例学习中多个实例对应一个标签的前提条件的出现更好的适应了现实生活中的场景。加强多标签学习和多实例学习的研究,对进一步促进机器学习发展,增强算法的实用性和提高模型效率等方面具有重要的意义。本文在已有的多标签分类和多实例分类的基础上,针对学习领域中发现的问题展开研究,主要工作如下:一、考虑到目前多标签数据集中数据不平衡问题。为了解决这个问题,我们提出了一个利用标签相关性的算法模型MLCI(multi-label learning model based on label correlation and imbalance)缓解多标签数据分布不平衡问题。模型通过耦合其他标签,将多标签数据集重构成多类别数据集,有效地避免单独处理海量的潜在子标签集合,减少了多标签数据集中标签不平衡的现象。同时,为避免过度依赖标签间相关性的影响,保持少见标签的独有性,模型还针对每个标签构建相应的二元分类器,以挖掘每个标签的特性,最后通过集成分类器,进行多标签数据的预测。本文提出的MLCI模型有效地缓解了数据集中复杂的标签不平衡问题,从理论分析和实验验证显示出MLCI的高效性。二、在多标签学习中,为进一步缓解标签问题为算法模型带来影响,提升多标签分类算法的性能,本文将迁移学习引入,提出了一个多标签度量迁移学习模型。该模型通过迁移学习的理念,利用实例的权重作为训练领域和测试领域分布的桥梁,缓解多标签数据集中不同领域之间同时出现的标签分布和实例分布不同的问题,为多标签分类的迁移学习打下基础。三、为了更好地挖掘多标签数据中标签空间内在的几何信息,本文在基于迁移学习的基础上,加入了度量学习,改良多标签迁移学习模型为MLMTL(multi-label metric transfer learning)。该方法在缓解领域间分布不同的问题后,还有效地保留了特征空间和标签空间的固有几何信息,在解决标签和实例双重分布不同问题的同时,提升了算法的性能。四、针对多实例学习中存在的分布不同问题,本文根据多标签度量迁移学习算法中应用到的技术基础进行技术拓展,提出了一种多实例度量迁移学习MIMTL(multi-instance metric transfer learning),缓解多实例数据中不同领域之间包级别分布不同的问题。模型利用度量迁移学习给训练领域中的多实例数据集中的包添加权重,构建两个领域之间包分布的桥梁。模型制定新的学习原则,用来调节类内和类间的参数,以此放宽严格的约束条件,然后利用加权包数据构建模型,解决了多实例学习模型中常见的参数过多的问题,并且提升运算效率。
其他文献
目的探讨封闭疗法配合康复指导治疗肩周炎的临床疗效。方法回顾性分析我院于2008年1月。2010年3月收治门诊217例肩周炎患者的临床资料。结果重度患者中127例(85.8%)患者疼痛症状
目前,日益严重的空气污染和化石燃料短缺使得发展可再生能源技术备受关注。氢作为地球上储量最丰富的元素,被认为是一种理想的清洁能源载体。如何安全、高效、经济地储存氢气
江泽民同志关于思想政治教育的理论十分丰富,具有鲜明特色。概括来看,主要包括:坚持思想政治教育与时代发展相融合,把握思想政治教育的深度;坚持思想政治教育与中央思想导向
<正>甬剧是宁波地方戏曲,它的前身是宁波滩簧,产生于民间,以表现男女爱情故事为主,它的发展与明清以来宁波地区商品经济发展,形成国内最大的工商群体和广大的市民队伍,市井文
主要介绍了澳大利亚土壤环境保护的法律法规、质量标准、管理体制和运行机制及相关监测技术、评价方法等 ,并对澳大利亚土壤污染状况、污染原因及采取的防治对策进行了叙述。
自1993年《反不正当竞争法》颁布至今已逾25年。在这期间,作品名称保护问题的争议层出不穷,但我国法律最初的规定较为原则、笼统和模糊,以至于司法实践缺乏明确指导。我国学术界对作品名称的保护问题众说纷纭,有学者主张其应受反不正当竞争法(以下或简称“反法”)保护,亦有学者反对其受反法保护,截至今日尚未形成统一定论。不可否认,作品名称经商业化使用后承载了特定的商誉,这也是本文拟借反法给予作品名称保护的基
随着国家基建投资规模的连续增长,产生了相当数量的规模施工企业,但一直以来施工企业管理粗放,外部价值资源利用率不高,资源没有有效整合,从而使规模企业产生不了规模效益。本文就
用气垫式连续退火炉研究不同热处理速度对Al-Mg铝合金的力学性能和组织的影响。结果表明:当中间退火热处理温度为460℃时,2.2 mm厚度卷材、速度38 m/min及1.0 mm厚度卷材、速
建国以来,新疆在发展民族教育促进多民族文化融合方面取得了许多经验,除建设现代媒体宣传少数民族语言和文化外,更多地体现为形成了比较完善和相对独立的教育体系、坚持思想
本文以内部审计闭环管理体系为方法论,探索内部审计闭环管理的构建模式,以及基于闭环管理的内部审计价值提升的机理和路径。在业务和机构两个层面闭环管理模型的基础上,借助