论文部分内容阅读
伴随着互联网的迅速发展,网络已经成为了消费者反馈观点的主要途径。网络上包括的大量评论信息不仅仅为商家提供了一个信息展示的平台,也为消费者提供了产品使用体验交流的平台。但是面对如此庞大的信息和数据,如果仅凭借人工阅读的方式,不仅耗费大量的时间且容易产生错误,因此,迫切的需要一种有效的手段对各种大量数据进行整理,以直观的方式对统计结果进行展示。在这一大背景下,情感分析任务就应运而生。文本情感极性分类作为情感分析研究中重要研究课题之一,反映了一个文本它是否支持某种观点的情况,一般分为正/负极性两种分类。目前,情感分类已经成为自然语言处理中的一个热点研究问题。但是,由于文本的情感表达方式复杂,情感的极性判断效果往往并不理想。其中,影响情感极性分类的一个主要原因是文本中情感极性转移现象,即指一个情感词的极性因为其他词或短语的影响而发生了改变或是反转。本文则着眼于文本情感表达中的情感极性转移现象的研究,研究内容主要包括以下几个方面:首先,文本分析了情感极性转移现象研究并构建了相关语料库。本文通过观察语料,分析研究语料文本中的改变词语情感极性的各种语言现象,并提出了情感极性转移的体系结构,总结出改变句子中情感词极性的四种语言现象,具体包括:否定结构,对比转折结构,模态结构和隐含结构。在此体系结构下,本文对语料中情感极性转移情况做了详细的标注,重点标注了引起情感词发生极性转移的不同类型的触发词。结合语料,给出了各种类型的统计分析和比较研究。其次,本文提出了情感极性转移自动检测方法研究。根据上一步研究的引起情感词发生情感极性转移的结构类型及总结的触发词表,分别提出了两种自动检测方法:基于规则的检测方法和基于机器学习分类的检测方法。其中,基于规则的方法应用相应触发词表,对各种不同类型的情感极性转移结构做了自动特征检测;基于机器学习分类的方法则使用已有的关于情感极性转移的标注语料,训练机器学习分类器,从而进行自动检测。实验详细比较这两种自动检测方法的有效性。最后,本文将情感极性转移检测应用在情感分类中。在给定某个情感词典的情况下,本文将上述两种情感极性转移检测方法自动检测情感文本中的情感词发生情感极性转移现象,并分别结合基于词计数(Termcounting)和基于二部图的情感分类方法,实现了考虑情感极性转移的情感分类方法。实验结果表明,考虑情感极性转移情况可以明显提高情感分类的整体性能。