论文部分内容阅读
摘 要:本文提出了一种基于样例池不确定性缩减最大的主动学习方法,该方法选择那些能够使得样例池不确定性缩减最大的样例,从而使得到的分类器具有更好的泛化能力。
关键词:主动学习;样例挑选;不确定性缩减;样例池
当前主动学习算法大致可分成两大类:基于流的主动学习和基于池的主动学习。与基于流的主动学习不同,基于池的主动学习不是由学习器产生新的样例,而是从样例池中选择样例。所谓的样例池就是一些无类标的样例的集合,为主动学习器提供选择的样例。
1.基于不确定性缩减最大的主动学习
基于不确定性缩减最大的主动学习是应用最为广泛的一种,它选择选择当前学习器最难分类的样例,通常这些样例位于分类边界附近。
本文提出一种基于样例池不确定性缩减最大的主动学习算法,即选取那些能最大程度上减少样例池不确定性的样例,也就是能使得样例池的不确定性缩减最大的样例。实验表明,与选择不确定性最大的样例相比,该方法选取的样例能使学习器的收敛速度更快,更快的获得较好的性能。
1.1 基本思想
由于主动学习的目的最终是要获得一个分类器,该分类器要具有好的泛化能力。基于样例池不确定性缩减最大的主动学习方法选择的样例是那些能够最大程度上缩减样例池不确定性的样例,因此该方法能够是样例池的不确定性快速的缩减到最少。该方法的主要思想如下:
设当前样例池P中有N个样例e1,e2,…eN且当前样例池的不确定性为U(PN),若标注某样例
1.3 算法描述
新算法描述如下:
步骤一:用有类标的样例训练得到一个分类器;
步骤二:用样例池中的每一个样例,并计算每个样例的类别不确定性,记为 ;
步骤三:计算各个样例间的相似度,由此形成相似矩阵:
步骤四:根据公式(7)计算每个样例被标注后样例池的不确定性縮减量 ;
步骤五:选取使得样例池不确定性缩减量最大的样例交由专家标注,并将标注后的样例加入到训练集中;步骤六:判断选择的样例个数是否达到预订的阈值,若是,则结束该算法;否则,返回步骤一;
2.实验及结果分析
采用模糊决策树作为基准分类器,分别在Glass和Pima数据库上进行了实验。数据库信息如表所示。
数据库名称 Glass Pima
基于样例不确定性最大 0.5712 0.7194
基于样例池不确定性缩减最大 0.5755 0.7198
由表格可以看出,与基于样例不确定性最大的主动学习方法相比,新方法——基于样例池不确定性缩减最大的方法在标注相同数目的样例情况下,得到的学习器的性能更好。
参考文献:
[1]X. Zhu. Semi-supervised learning with graphs. Doctoral Thesis, May 2005.
[2]龙军,殷建平,祝恩,赵文涛;主动学习研究综述;计算机研究与发展;45 (Suppl1) : 300~304, 2008
关键词:主动学习;样例挑选;不确定性缩减;样例池
当前主动学习算法大致可分成两大类:基于流的主动学习和基于池的主动学习。与基于流的主动学习不同,基于池的主动学习不是由学习器产生新的样例,而是从样例池中选择样例。所谓的样例池就是一些无类标的样例的集合,为主动学习器提供选择的样例。
1.基于不确定性缩减最大的主动学习
基于不确定性缩减最大的主动学习是应用最为广泛的一种,它选择选择当前学习器最难分类的样例,通常这些样例位于分类边界附近。
本文提出一种基于样例池不确定性缩减最大的主动学习算法,即选取那些能最大程度上减少样例池不确定性的样例,也就是能使得样例池的不确定性缩减最大的样例。实验表明,与选择不确定性最大的样例相比,该方法选取的样例能使学习器的收敛速度更快,更快的获得较好的性能。
1.1 基本思想
由于主动学习的目的最终是要获得一个分类器,该分类器要具有好的泛化能力。基于样例池不确定性缩减最大的主动学习方法选择的样例是那些能够最大程度上缩减样例池不确定性的样例,因此该方法能够是样例池的不确定性快速的缩减到最少。该方法的主要思想如下:
设当前样例池P中有N个样例e1,e2,…eN且当前样例池的不确定性为U(PN),若标注某样例
1.3 算法描述
新算法描述如下:
步骤一:用有类标的样例训练得到一个分类器;
步骤二:用样例池中的每一个样例,并计算每个样例的类别不确定性,记为 ;
步骤三:计算各个样例间的相似度,由此形成相似矩阵:
步骤四:根据公式(7)计算每个样例被标注后样例池的不确定性縮减量 ;
步骤五:选取使得样例池不确定性缩减量最大的样例交由专家标注,并将标注后的样例加入到训练集中;步骤六:判断选择的样例个数是否达到预订的阈值,若是,则结束该算法;否则,返回步骤一;
2.实验及结果分析
采用模糊决策树作为基准分类器,分别在Glass和Pima数据库上进行了实验。数据库信息如表所示。
数据库名称 Glass Pima
基于样例不确定性最大 0.5712 0.7194
基于样例池不确定性缩减最大 0.5755 0.7198
由表格可以看出,与基于样例不确定性最大的主动学习方法相比,新方法——基于样例池不确定性缩减最大的方法在标注相同数目的样例情况下,得到的学习器的性能更好。
参考文献:
[1]X. Zhu. Semi-supervised learning with graphs. Doctoral Thesis, May 2005.
[2]龙军,殷建平,祝恩,赵文涛;主动学习研究综述;计算机研究与发展;45 (Suppl1) : 300~304, 2008