论文部分内容阅读
随着新兴电子商务平台广泛使用,用户在享受便利的同时,也通过论坛发表关于产品的观点。通过这些评论,普通用户可以了解产品的性能,为购买行为做出理性的选择,生产者可以快速掌握市场动向,为商品营销做出正确的决策。因此,面向产品评论的观点挖掘和情感分析是解决此类问题的有效手段。传统的监督学习方法多应用于静态单领域数据,需要大量的标注数据,而迁移学习方法可以利用已有的标注数据来学习分类模型,用于解决训练目标样本标注不足的问题。由于不同领域或不同时期的数据之间存在一定的差异性,本文通过主动学习对分类模型进行优化,用于提高文本的情感预测效果,主要研究的内容如下:(1)文本情感预测的问题分析根据实验语料,从传统文本表示的局限性、评论文本语言表达的多样性以及评论文本不同时段的关注点不同三个方面,具体分析了目前情感分析研究中存在的问题,并提出了相应的解决方法。(2)基于主动学习和迁移学习的跨领域文本情感预测针对静态跨领域数据领域不同导致的语言表达多样性问题,提出一种基于主动学习和迁移学习的跨领域文本情感预测方法,首先通过源领域数据训练分类模型,选择目标领域置信度较高的文本作为分类模型的初始种子样本,迭代过程中,选取专家标注的低置信度文本与高置信度文本共同加入训练数据集,加快了目标领域分类模型的优化速度,再根据情感词典、评价词搭配抽取规则以及辅助特征词从训练集中动态抽取特征集,最终利用优化好的分类模型对测试数据集进行分类。相比Active-Dynamic,Active-Semi-Dynamic平均精度提高了 2.75个百分点,实验结果表明加入高置信度样本,能够丰富训练样本和特征信息,有助于分类模型的训练。相比Active-BOW,Active-Semi-Dynamic平均精度提高了 2.79个百分点,实验结果表明利用情感词典和依存句法分析相结合抽取情感词,能够更加准确地刻画文本的情感信息,提高跨领域文本的情感预测效果。(3)基于主动学习和迁移学习的时序评论情感预测针对动态时序数据评论时间不同导致的评论关注点不同问题,提出一种基于主动学习和迁移学习的时序评论情感预测方法,采用迁移学习思想,通过前一时期标注数据获得当前时期数据的初始标注样本。在主动学习中,采用SMOTE算法平衡训练数据集,通过优化后分类模型预测当前时期汽车评论的情感倾向。相比UN_SMOTE,SMOTE算法的平均准确率提高了 4.32个百分点,实验结果表明分类模型优化过程中,在少数类中插入新样本,能够平衡训练语料,提升汽车评论的情感预测效果,同时,实现了混合类评论的情感预测。