论文部分内容阅读
在传统有监督学习问题中,若要得到性能较好的模型,往往需要在大量已标记样本上进行训练学习。但在很多实际任务中,特别是处理多标记、多模态等复杂数据时,样本标注十分困难,代价昂贵。因此,如何利用尽可能少的标记数据训练出有效模型是一个重要的研究问题。主动学习是有效解决这一问题的主要途径,它通过主动选择部分最有价值的样本向用户查询其标记,从而用较少的代价提升模型性能。本文结合主动学习技术分别针对多标记、多模态复杂数据在训练建模时标记数据匮乏的问题开展了研究,由此取得了如下成果:1.提出一种结合模型引导的分布匹配多标记主动学习算法MADM。该算法通过匹配未标记数据和已标记数据的分布,发掘特征、标记两方面均最具代表性、差异性的监督信息。同时,利用模型的预测得分动态引导分布的匹配,使算法倾向于更有查询价值的潜在正样本。实验证实MADM能显著减小多标记样本的标注代价。2.提出一种查询细粒度监督信息的多示例多标记主动学习算法MIML-AL。该算法针对多示例多标记对象提出一个特定的查询方式,在不增加用户标注代价的前提下获取更为精细的监督信息。同时,通过联合考虑输入、输出空间的差异性和不确定性,使查询的监督信息最有价值。实验证明MIML-AL能在同等标注代价下获得更大的性能提升。3.提出一种结合主动查询的跨模态相似度学习算法COSLAQ。该算法充分利用模态内和模态间不同相似性度量的不一致度,发掘对模型性能提升最具价值的监督信息。同时,通过结合模型的不确定性以有效避免离群点的干扰。实验验证显示出COSLAQ的有效性。