基于主动学习和迁移学习的文本情感预测研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:mmlovejj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新兴电子商务平台广泛使用,用户在享受便利的同时,也通过论坛发表关于产品的观点。通过这些评论,普通用户可以了解产品的性能,为购买行为做出理性的选择,生产者可以快速掌握市场动向,为商品营销做出正确的决策。因此,面向产品评论的观点挖掘和情感分析是解决此类问题的有效手段。传统的监督学习方法多应用于静态单领域数据,需要大量的标注数据,而迁移学习方法可以利用已有的标注数据来学习分类模型,用于解决训练目标样本标注不足的问题。由于不同领域或不同时期的数据之间存在一定的差异性,本文通过主动学习对分类模型进行优化,用于提高文本的情感预测效果,主要研究的内容如下:(1)文本情感预测的问题分析根据实验语料,从传统文本表示的局限性、评论文本语言表达的多样性以及评论文本不同时段的关注点不同三个方面,具体分析了目前情感分析研究中存在的问题,并提出了相应的解决方法。(2)基于主动学习和迁移学习的跨领域文本情感预测针对静态跨领域数据领域不同导致的语言表达多样性问题,提出一种基于主动学习和迁移学习的跨领域文本情感预测方法,首先通过源领域数据训练分类模型,选择目标领域置信度较高的文本作为分类模型的初始种子样本,迭代过程中,选取专家标注的低置信度文本与高置信度文本共同加入训练数据集,加快了目标领域分类模型的优化速度,再根据情感词典、评价词搭配抽取规则以及辅助特征词从训练集中动态抽取特征集,最终利用优化好的分类模型对测试数据集进行分类。相比Active-Dynamic,Active-Semi-Dynamic平均精度提高了 2.75个百分点,实验结果表明加入高置信度样本,能够丰富训练样本和特征信息,有助于分类模型的训练。相比Active-BOW,Active-Semi-Dynamic平均精度提高了 2.79个百分点,实验结果表明利用情感词典和依存句法分析相结合抽取情感词,能够更加准确地刻画文本的情感信息,提高跨领域文本的情感预测效果。(3)基于主动学习和迁移学习的时序评论情感预测针对动态时序数据评论时间不同导致的评论关注点不同问题,提出一种基于主动学习和迁移学习的时序评论情感预测方法,采用迁移学习思想,通过前一时期标注数据获得当前时期数据的初始标注样本。在主动学习中,采用SMOTE算法平衡训练数据集,通过优化后分类模型预测当前时期汽车评论的情感倾向。相比UN_SMOTE,SMOTE算法的平均准确率提高了 4.32个百分点,实验结果表明分类模型优化过程中,在少数类中插入新样本,能够平衡训练语料,提升汽车评论的情感预测效果,同时,实现了混合类评论的情感预测。
其他文献
随着互联网信息爆炸性增长,通用搜索引擎已经越来越难以满足人们日益增长的个性化需求。在面对专业搜索请求时,通用搜索引擎往往表现的力不从心。为了实现对特定行业的专、准
Web2.0时代,网络出现了大量产品评论,这些评论不仅给用户消费产品带来一定的导向作用,而且对厂家生产产品起到一定的反馈作用,如何从大量复杂评论数据中抽取有效信息并构建评
在企业级分布式应用领域,传统的分布式应用体系结构大都从自身需求出发,使用各种不同的技术构成相互独立的紧耦合的封闭式系统,它们相互之间缺乏兼容性、有效的互操作性以及重用
随着信息时代的发展,人们所获得的信息量爆发性的增长,以至于人们对从巨大信息量中获得有用的而且正确的信息具有更为迫切的要求,这也就是数据挖掘产生的原因。数据挖掘即分
当前,计算机科学技术、信息通信技术得以快速发展,而且随着3C(computer, communications, consumer electronics)技术的快速合一,使得嵌入式系统在生产生活的各个方面得到广
语义角色标注是自然语言处理研究领域的的一个关键问题,备受专家学者关注。作为浅层语义分析的一种实现方式,如能将其有效解决,可直接服务于自动问答、机器翻译、信息抽取等
盗窃犯罪是一种多发性的、与人类社会共同进步的犯罪行为,是当前危害我国社会治安和公民财产安全的主要因素。历年犯罪资料显示,盗窃案在各类犯罪案件中所占比例最高,其中入
可信计算是一种信息系统安全新技术,它已经成为国际信息安全领域的一个新热潮,并且取得了令人鼓舞的成绩。可信计算的总体目标是提高计算机系统的安全性。可信平台模块TPM,是
随着网络技术的发展及网络应用的普及,入侵检测作为网络安全的主动防御工具,也面临着更多新的挑战,尤其是在大量的网络数据、在线学习以及噪声数据等情况下,无法准确识别网络
随着信息技术的不断发展与在企业中应用的不断扩大,数据库做为数据存储与管理的软件系统,其作用越来越被从业人员所重视,伴随而来的是数据库管理与性能调整、监控问题。数据