论文部分内容阅读
文本倾向分析目的是确定文本所表达的态度或观点,近几年来已经成为信息检索和自然语言处理领域的一个热点问题。文本倾向分析分为两个方面:情感(emotion)和情感倾向(sentiment/opinion)。这两方面都是人物主观意愿的反映,情感表达人物自身的情绪起伏,如快乐、悲伤等;情感倾向则表达人物对外界事物的态度或者喜爱的程度,如赞成、反对等。文本倾向分析应用十分广泛,在舆情分析、有害信息过滤、影视评价、产品调查等方面都有广阔的应用前景,但是目前公开的情感分析语料还比较少,给研究带来很大的困难。目前情感分析还是比较初步,要使情感分析达到可应用的程度,还有很长的路要走。本文重点对句子情感分析和篇章级情感倾向分析进行了研究。首先,本文将研究焦点对准喜、怒、哀、惧四类情感分析问题,重点解决中文句子的情感分析问题。句子情感分析首先根据情感词典和倾向词典提取词特征,并采用规则提取词序列特征,然后采用最大熵模型对句子进行情感分类。在COAE2009评测中句子情感分析取得较好结果。其次,情感分类是目前篇章情感分析的主要方法,但该方法难以融入结构特征。针对此问题,采用级联模型对篇章情感倾向进行分析,将篇章情感倾向分析分为两层:小句级和篇章级。首先分解篇章到小句,再由小句级的分析过度到对篇章级进行分析。使用最大熵模型处理小句级情感分类,小句级的输出作为上层篇章级的输入,并结合句型特征和句子位置等信息作为特征,采用支持向量机模型进行篇章级情感分类。同时对于级联模型中双层标注问题,基于交叉验证的思想提出了单层标注级联模型,减少了标注工作以及多层标注错误。实验结果表明,该方法的准确率较传统情感分类方法提高2.53%。最后,本文针对句子情感分析和篇章情感倾向分析的实验进行了分析,分析了句子情感分类能够取得好成绩的几个原因,同时对于本文所提出基于单层标注级联模型的情感分析进行了分析,指出了该模型在篇章情感分析中的优势。