面向类别不平衡与未标记数据的偏标记学习研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:t123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
偏标记学习是一种重要的弱监督机器学习框架,它广泛地存在于现实世界的许多应用场景中,比如计算机视觉、互联网、生态信息学等。在偏标记学习中,每个示例对应一个候选标记集合,其仅有一个真实标记且隐藏在候选标记集合中。此时,由于监督信息不再具有单一性和明确性,传统监督学习方法不再适用于偏标记学习场景,需要结合偏标记学习自身的特性设计适合的学习算法。为求解偏标记学习问题,现有算法主要采用问题转换和算法适应两种策略。算法适应策略对常用的监督学习算法进行改造,使其适用于偏标记学习数据。问题转换策略对偏标记学习问题进行转化,使其能采用传统的监督学习方法进行求解。然而,偏标记学习研究仍存在许多有待进一步探索的问题。本文针对类别不平衡与未标记数据利用,主要做了如下两方面的工作:首先,偏标记学习作为一种多类分类方法,其数据集本身普遍受到类别不平衡因素的影响。现有类别不平衡求解策略均假设样本的真实标记已知,由于偏标记训练样本的真实标记无法显式获得,现有技术难以直接处理偏标记学习中的类别不平衡问题。本文结合偏标记学习自身的特点,提出了一种综合消歧与过采样技术的偏标记类别不平衡学习算法Cimap。实验结果表明,Cimap算法可有效缓解类别不平衡问题对偏标记学习带来的不利影响。其次,现实任务中获取大量已标记样本往往十分困难,而未标记数据相对容易获取,如何有效利用未标记数据提升学习系统的泛化性能具有重要研究意义。本文提出了一种基于偏标记学习技术的半监督学习算法SemiPL,该算法基于已标记样本迭代估计未标记样本的候选标记,从而实现未标记数据的有效利用。大量实验结果表明,SemiPL算法的性能优于现有的半监督学习算法。本文分为五章。第一章介绍偏标记学习的研究背景、研究现状以及待解决的问题;第二章简述目前主流的偏标记学习算法;第三章介绍用于缓解偏标记学习中类别不平衡问题的Cimap算法;第四章介绍如何借助偏标记学习对未标记数据进行有效利用的SemiPL算法;第五章对本文工作进行总结。
其他文献
二阶非线性光学(NLO)材料是实现激光频率转换的功能材料,可应用于激光通讯、激光武器、眼科手术、激光加工、激光存储等领域。但是,由于目前商业化的NLO晶体存在着二次谐波输出(SHG)效应不强、抗激光损伤阈值(LIDT)低,透光范围窄等缺点,无法满足激光技术的市场需求。含有硫族元素(S、Se、Te)的化合物往往具有较大的NLO系数、较宽的透光范围等优点;同时,在含有两种结构基元的化合物中,如果两种结
作为现代通信研究的一个重要领域,无线局域网(Wireless Local Area Networks,WLAN)凭借其方便快捷、高吞吐量等优势,已成为越来越多用户的首选上网接入方式。为标准向下兼容
基于传统寿命试验的液压泵可靠性评估方法时间长、费用高,无法满足快速可靠性评估的实际需求,基于性能退化的可靠性评估方法采集表征产品健康状态的性能特征随时间的变化数据
随着网络技术的快速发展,许多多媒体项目都需要大量的计算机数据存储和读取,而如此大量的数据若只是在单一计算机上,并且在一个规定的时间内进行处理,是根本不可能完成的。为
目的:应用丹红注射液治疗急性冠脉综合征PCI术后的患者,旨在观察其对内皮功能的影响和疗效,分析其改善急性冠脉综合征PCI术后的患者短期预后的情况。方法:采用随机对照研究的
目的:通过培元还五汤配合现代康复治疗对脑卒中后疲劳(Post stroke fatigue,PoSF)的干预,探讨其对脑卒中后疲劳的疗效及血清免疫球蛋白的变化,研究脑卒中后疲劳的免疫机制,从
无线传感器网络(Wireless Sensor Network,WSN)是由大量微型传感器节点通过无线电通信方式形成的一个自组织网络系统,在诸多领域具有广泛的应用前景。由于节点大多由电池供电
数学教学是实现数学课程目标和育人价值的重要途径,新的义务教育课程标准(2011版)特别指出“有效的数学教学活动是教师教与学生学的统一,应体现‘以人为本’的理念,促进学生的全面发展”。而研究者的导师通过W市职业中专的数学调查发现,中专学生针对数学题“将一根2米长的绳子随意剪成两段,请说明:至少有一段绳子的长度不低于1米。”的回答情况令人堪忧。从统计结果上看,在有效回答的147名学生中,有7名学生能正
LPMLN是一种结合了回答集程序(ASP,Answer Set Programming)与马尔科夫逻辑网(MLN,Markov Logic Network)的知识表示和推理语言,具有非单调和不确定推理的能力,并能处理不一致,是
本文是一篇英译中的带稿交替传译实践报告,所描述的口译任务为笔者负责的2014年安利益之源净水机发布会呼和浩特站的交传工作。重点选取了会议期间美国专家讲解安利益之源净