论文部分内容阅读
情感分析是自然语言处理领域经典的研究方向之一,随着互联网以及电子商务的成熟,人们已经习惯在各种线上平台上消费。在线上平台消费之后,用户会对此次消费进行评论,这些评论信息日益增长,拥有很高的研究价值。对这些评价信息进行分析和挖掘,可以把握用户的喜好和消费需求,同时能对其他的消费者的消费行为提供参考意见,商家也可以根据消费者的消费需求,对产品不断进行改进和更新。传统的情感分析方法主要有基于规则和基于机器学习的方法。基于规则的方法需要构建情感词典,其情感极性分类效果取决于情感词典的质量,并且想要构建一个通用跨领域的情感词典很困难。而基于机器学习的方法需要构建特征和提取特征,这类特征通常无法表征文本的语义信息。因此,本文主要研究了深度学习方法在情感极性分类中的应用。本文的主要工作内容如下:(1)针对句子级的粗粒度情感分析任务,本文提出了一个多角度(全局最大池化、全局平均池化和注意力机制)增强句子表征能力的模型。只使用最大池化能提取出句子中重要的信息,但同时也会损失一部分有价值的信息。因此本文将全局最大池化、全局平均池化和注意力机制结合起来增强句子表征能力。该模型在Movie Review数据集上Accuracy值为82.41%,F1 score值为0.822。该模型在Customer Review数据集上Accuracy值为86.59%,F1 score值为0.862。均取得了不错的效果,在两个数据集上均优于其它基线模型。(2)针对方面级细粒度情感分析任务,本文提出了一个基于自注意力机制的模型。该模型使用两个基于自注意力机制的模块来进行句子表征,逐步获取20个特定方面的信息,最终一次性输出20个方面的情感倾向值标签。该模型在2018年AI Challenger细粒度情感分析数据集上取得了不错的效果,平均F1值为0.7084,平均Accuracy值为88.65%,优于其它基线模型。(3)将本文提出的模型应用到线上餐饮评论情感分析中,主要包括了数据抓取、粗粒度情感分析和方面级细粒度情感分析三个功能,验证了本文提出的模型的有效性和实用性。