利用未标记数据的机器学习方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:raclen4hy00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习需要有标记数据来训练模型进行预测,有标记数据的获取通常需要人工参与,因此价格非常昂贵。在很多实际应用中,未标记数据可以较为容易地大量获取,如何利用廉价的未标记数据一直以来都是机器学习领域中的研究热点。目前出现了两种利用未标记数据的方法:一种是自动利用未标记数据辅助有标记数据提升学习性能的半监督学习;虽然该类方法大多能够提升学习性能,但都基于潜在的模型假设,当模型假设与数据分布存在偏差时可能会降低学习性能;另一种是通过众包以较低的代价给数据提供标记,进而可以精确利用未标记数据以降低学习风险。本文主要围绕半监督学习和众包进行研究,取得了以下进展:第一,针对半监督学习中的重要风范协同训练易受不充分视图的影响这一问题,提出了一种新型的加权协同训练算法。视图不充分时协同训练过程中会出现与最优分类器不一致的样本,该算法通过检测潜在的不一致样本并降低其权值以减少这些样本对训练过程的影响。实验结果表明,与标准的协同训练算法相比该算法有更好的泛化性能与更强的鲁棒性。第二,针对众包过程中任务标记依赖于任务难度这一特点,提出了一种新型的任务分配算法。该算法通过估计部分任务的难度构建训练集学得预测难度的模型,将任务分为简单和困难两类。对于简单的任务可利用众包进行标记;而对于困难的任务,则需雇佣专家为其提供高质量标记。实验结果表明该算法能够在提高标记质量的同时降低标记代价。此外,本文还对利用未标记数据的模型复用进行了研究,该场景中用户需要集成多个无法修改的预训练模型,针对这一问题,本文提出了一种新型的多视图模型复用算法。该算法通过信念传播估计预训练模型的可靠性,并基于未标记数据上的多视图一致性指导这一估计过程,进而利用估计得到的可靠性加权集成多个预训练模型。实验结果表明该方法能够显著提升分类精度。
其他文献
近年来,Internet上垃圾邮件问题日益严重。其治理和解决需要从立法、组织和技术三个方面综合共同努力,彻底解决垃圾邮件的影响和危害。作者从治理垃圾邮件的技术层面出发,在
随着信息时代的到来,如何及时精确地抽取和组织无序的海量信息以实现方便的查询,已经成为研究的焦点。特别是当Internet迅速发展的时候,网络信息挖掘已经变得日益重要。而汉语自
射频识别技术RFID(Radio Frequency Identification)是自动识别技术的一种,它通过无线射频方式进行非接触双向数据通信对目标加以识别。RFID中间件是RFID技术的重要组成部分,
本文的研究工作包含两个部分:第一,对Web服务组合的正确性进行了验证,提出了基于BPEL的Web服务组合形式化分析模型和自动测试框架;第二,对Web服务的安全性进行了形式化分析,
随着互联网应用的深入,网络蠕虫对计算机系统安全和网络安全的威胁日益增加。特别是在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高,潜伏性变强,覆