【摘 要】
:
针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法.
【机 构】
:
山西大学计算机与信息技术学院,计算智能与中文信息处理教育部重点实验室(山西大学)
【基金项目】
:
国家自然科学基金项目(61175067,61272095,61405109);国家“八六三”高技术研究发展计划基金项目(2015AA015407);山西省回国留学人员科研项目(2013-014);山西省自然科学基金项目(2013011066-4);山西省科技攻关项目(20110321027-02)
论文部分内容阅读
针对目标领域带标签数据偏少的问题,综合运用半监督学习、BootStrapping、数据分组、AdaBoost、集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法.该方法首先利用少量人工标注的目标领域数据,基于合成过抽样技术产生一定数量的虚拟数据.在此基础上,采用BootStrapping方法获得更多目标领域高可信度的带标签数据.在分类器的构建方面,首先将源领域的带标签数据等量分割,并分别与目标领域带标签数据组合,在每个组合数据块上运用AdaBoost方法提升地训练多个分类器,并将这些分类器线性地集成为一个分类器.在亚马逊购物网站4个领域的情感数据集上的实验表明,基于分组提升集成的跨领域文本情感分类方法一定程度上提高了跨领域文本情感分类的精度.
其他文献
为了更好地指导生产,采用无蒸发恒容间歇反应器对Li2CO3自LiHCO3溶液中的结晶动力学进行了研究。实验结果表明,温度的升高及质量浓度的增大能显著提高结晶速率,低的系统压力
科学民主决策随着信息传播的发展日益深化,各级政府机构要解决的决策问题也日益增多且复杂化,涉及的领域也不断扩大。科学全面的决策信息要被政府相关机构及时了解,这样才能
梅毒螺旋体(Treponema pallidum, Tp)是人类性传播疾病(sexually transmitted disease, STD)梅毒的病原体。梅毒在STD中的致死性仅次于艾滋病,其不仅可严重损害成人人体的多
本文主要针对跆拳道新规则的出台与启用对我国跆拳道技、战术及裁判员临场执裁等方面产生的变化与影响等问题进行探讨。
多元识读教学法是由多模态理论发展而来的一种教学法。自上世纪90年代问世以来,在国外率先开展开了相关研究,本世纪初传入中国,研究主要集中在理论层面,大多数是针对对高等教
自改革开放以后, 新中国的政治、 经济、文化等都进入了一个飞速发展的阶段, 国家对优质人才的需求量也日益增大, 同时也为我国的教育事业带来了新的挑战.由于国家深刻意识到
小学语文教学中古诗文教学占有很重要的地位和作用,作为中华传统文化的中非常重要的一部分,古诗文教学也是深受小学语文教师的重视的,小学语文教材中包含着很多古诗文的内容,