论文部分内容阅读
随着机器学习研究的不断深入,学习算法所能处理的数据规模越来越庞大。然而,对数据进行标注一般仍需要人工完成,所消耗的成本日益成为限制机器学习发展的瓶颈。主动学习通过让机器主动地挑选学习样本,能够避免对冗余数据进行标注,极大地降低标签成本。 传统的主动学习方法在挑选无标签样本时,只考虑样本对当前已学得的模型的信息量,而没有考虑了数据集的整体分布特征,存在一些明显的不足: (1)主动挑选出来的数据集中仍存在较多冗余样本; (2)主动学习容易陷入局部最优解; (3)传统主动学习方法对信息利用不够充分。 为了克服这些不足,本文针对主动学习支持向量机研究了以下内容: (1)研究了一种基于半监督聚类的主动学习支持向量机。选择引擎在挑选样本时不再以当前模型作为唯一依据。选择引擎首先将特定区域内的样本聚成两个样本簇,然后选择两个簇交界处附近的样本。根据聚类假设,这样的样本有较大的概率成为最终模型的支持向量。实验结果表明,这种改进的样本选择方法有效降低了主动学习挑选出来的样本集的冗余性。 (2)研究了一种新的主动学习停止标准。该方法同样以聚类假设的思想为基础,认为主动学习应该在分类超平面落在特征空间的稀疏区域时停止。为了判断分类面是否落在稀疏区域,提出了一种基于随机搜索的正则化图分割算法。正则化图分割(Normalized Graph Cut,缩写Ncut)是实现低密度分割思想的代表性方法。如果SVM的分类结果与 Ncut得到的结果非常相似,则表明当前 SVM模型的分类面已落在稀疏区域,主动学习可以停止。实验结果表明,这种新的停止标准在标签成本与模型泛化能力之间取得了较好的平衡。 (3)研究了一种基于特征选择的主动学习方法。该方法在主动学习的早期阶段只使用少数主要特征来描述整个数据集,从而使主动学习得到的模型能够迅速抓住数据集的整体分布特征,降低陷入差的局部最优解的可能性。随着主动学习的进行,有标签样本数量逐渐增大,再逐渐增加数据集的细节特征,以进一步提高模型精度。实验结果表明,这种逐步添加特征的方法同时提高了主动学习的效率和鲁棒性。 (4)研究了一种基于子空间投影的主动学习方法。除了使用有标签数据集训练分类模型,该方法还从有标签样本集中学习得到一个投影变换。该投影变换能够使数据集中属于不同类别的样本近似处于原始空间的不同的正交子空间中,从而更容易分类,间接提高模型精度。投影矩阵通过凹凸过程求解。实验结果表明,子空间投影能够有效地提高分类模型的精度,尤其是在主动学习的早期阶段。