论文部分内容阅读
多标签学习广泛应用于文本分类、图像标注、视频语义注释、基因功能分析等问题。近年来,多标签学习日益受到学术界和工业界的关注,成为机器学习领域中的研究热点,并且取得了显著的进步。然而,多标签学习经常受到标签数量、标签之间依赖关系、标签缺失等影响,多标签学习仍然是一项极具挑战的研究。标签之间依赖关系是复杂且重要的因素,它的有效学习会丰富数据表示的内涵,对提升多标签分类性能产生重要作用。因此,多标签分类主要面临以下挑战:不同标签之间存在关联性,并且关联性存在较大差异;随着标签数量的增长,标签之间依赖关系变得复杂,并且面临时间和空间复杂度的挑战;以及标签依赖关系在标签缺失问题中的应用。本文针对上述问题提出了两种多标签分类模型,主要工作和贡献如下:提出了基于神经网络探究标签依赖全局关系的模型NN_AD_Omega。考虑到不同标签之间存在不同的相关性,本文构建了标签依赖全局关系矩阵来刻画标签之间的依赖关系。该矩阵关于主对角线对称,主对角线表示每个标签与自身的依赖关系,并且该依赖关系最强。NN_AD_Omega模型的优势在于在神经网络的顶层加入标签依赖全局关系矩阵,在输出层增强标签之间的知识共享。同时,标签之间依赖关系的学习通过充分挖掘数据内在本质特点得到,能够在出现样本部分标签缺失的情况时,弥补标签缺失所带来的误差,从而有效地提高预测标签信息的能力。在四个标准多标签数据集上的实验表明提出的算法能够探究标签之间的依赖关系和处理标签缺失问题,并且有效提升了多标签分类的性能。提出了基于监督主题模型探究标签依赖局部关系的模型BooMF_LLDA。随着标签数量的不断增长,构建标签依赖全局关系矩阵越来越庞大,矩阵更新的时间和空间复杂度越来越高。为了降低标签依赖关系矩阵的时间和空间复杂度,本文构建了标签依赖局部关系矩阵来刻画标签之间的依赖关系。该矩阵通过对数据-标签表示矩阵进行布尔矩阵分解得到,数据在隐标签空间的表示也可同时获得。该方法将数据-隐标签表示矩阵应用到监督主题模型中作为训练阶段隐主题分配的监督信息。监督主题模型为每个特征所分配的主题与该数据所拥有的隐标签一一对应。在两个标准多标签数据集上的实验表明提出的算法能够探究标签之间的依赖关系,并且有效提升了多标签分类的性能。