基于样例池不确定性缩减的主动学习算法

来源 :杂文月刊(学术版) | 被引量 : 0次 | 上传用户:aiming4636j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:本文提出了一种基于样例池不确定性缩减最大的主动学习方法,该方法选择那些能够使得样例池不确定性缩减最大的样例,从而使得到的分类器具有更好的泛化能力。
  关键词:主动学习;样例挑选;不确定性缩减;样例池
  当前主动学习算法大致可分成两大类:基于流的主动学习和基于池的主动学习。与基于流的主动学习不同,基于池的主动学习不是由学习器产生新的样例,而是从样例池中选择样例。所谓的样例池就是一些无类标的样例的集合,为主动学习器提供选择的样例。
  1.基于不确定性缩减最大的主动学习
  基于不确定性缩减最大的主动学习是应用最为广泛的一种,它选择选择当前学习器最难分类的样例,通常这些样例位于分类边界附近。
  本文提出一种基于样例池不确定性缩减最大的主动学习算法,即选取那些能最大程度上减少样例池不确定性的样例,也就是能使得样例池的不确定性缩减最大的样例。实验表明,与选择不确定性最大的样例相比,该方法选取的样例能使学习器的收敛速度更快,更快的获得较好的性能。
  1.1 基本思想
  由于主动学习的目的最终是要获得一个分类器,该分类器要具有好的泛化能力。基于样例池不确定性缩减最大的主动学习方法选择的样例是那些能够最大程度上缩减样例池不确定性的样例,因此该方法能够是样例池的不确定性快速的缩减到最少。该方法的主要思想如下:
  设当前样例池P中有N个样例e1,e2,…eN且当前样例池的不确定性为U(PN),若标注某样例
  1.3 算法描述
  新算法描述如下:
  步骤一:用有类标的样例训练得到一个分类器;
  步骤二:用样例池中的每一个样例,并计算每个样例的类别不确定性,记为              ;
  步骤三:计算各个样例间的相似度,由此形成相似矩阵:
  步骤四:根据公式(7)计算每个样例被标注后样例池的不确定性縮减量                   ;
  步骤五:选取使得样例池不确定性缩减量最大的样例交由专家标注,并将标注后的样例加入到训练集中;步骤六:判断选择的样例个数是否达到预订的阈值,若是,则结束该算法;否则,返回步骤一;
  2.实验及结果分析
  采用模糊决策树作为基准分类器,分别在Glass和Pima数据库上进行了实验。数据库信息如表所示。
  数据库名称 Glass Pima
  基于样例不确定性最大 0.5712 0.7194
  基于样例池不确定性缩减最大 0.5755 0.7198
  由表格可以看出,与基于样例不确定性最大的主动学习方法相比,新方法——基于样例池不确定性缩减最大的方法在标注相同数目的样例情况下,得到的学习器的性能更好。
  参考文献:
  [1]X. Zhu. Semi-supervised learning with graphs. Doctoral Thesis, May 2005.
  [2]龙军,殷建平,祝恩,赵文涛;主动学习研究综述;计算机研究与发展;45 (Suppl1) : 300~304, 2008
其他文献
我国城乡金融差异非常明显,不仅表现在规模和结构方面,效率方面的差异也很显著。通过构建动态面板数据模型,利用1992—2009年29个省区的数据,分析城乡金融差异对城乡收入差距
新形势下,公安刑侦队伍中一些民警存在享乐主义、极端个人主义和消极厌战情绪,部分刑警执法工作不适应形势和经济发展需要。因此,要建立与时俱进的刑侦政治思想工作新机制。
“雅言传承文明,经典浸润人生”,中华文化源远流长,内涵深刻,意存高远。历经千年淘洗,仍放射着璀璨夺目的思想光辉。小学阶段是学生记忆力最佳的年龄,诵读经典,可以滋养文化智慧,美化心灵和升华情感。《语文课程标准》也强调指出,让学生“认识中华文化的丰厚博大,吸收民族文化智慧”;近年来全国各地纷纷组织开展“中华诵·经典诵读”活动,让广大群众,特别是小学生在诵读经典的过程中,了解中华文化。由此可见,诵读经典
针对地表水的污染状况,人们采用了不少修复方法,其中利用生物膜方法进行地表水修复具有效率高的特点。而生物膜活性的高低,往往与生物膜载体密切相关。目前国内外大多采用生
杜丽娘的爱情故事一方面表现了人们的理想,另一方面反映了现实的残酷;哈姆莱特的复仇故事一方面体现了行动的惨烈,另一方面送来了生活的希望。前者是喜剧却又是真正的悲剧,后
由于供体器官来源困难,世界器官移植界重新认识异种移植的价值.本文着重探讨异种超急性排斥的机理,补体、自然抗体、内皮细胞在超急性排斥中的作用以及异种器官移植基础研究
针对CRH2C型动车组在运用时主变流器控制电源异常和牵引变压器二次侧发生过电流故障原因进行了分析,介绍了CRH2C型动车组主变流器故障基本判断方法和处理措施,并应用于实际工作
研发活动共享资源测度问题的有效解决对加强研发活动的成本管理和最终产品的科学定价等都具有重要意义。从管理会计视角说明了传统测度方法存在的问题,在此基础上,应用TDABC(
从产业安全的视角建立了反倾销与产业升级的协同演化框架,分析了中国遭受反倾销与中国产业升级的协同演化机制,构建了相应的协同演化模型,并使用中国1995—2014年的相关数据
煤矿塌陷区是一个自然、社会复合生态系统,塌陷区水质状况是该区域环境质量的综合反映。为了充分认识这些塌陷区水体,找出该水系相对其它水系的特殊性,更合理地开发、利用塌