论文部分内容阅读
文本情感分类及判别是通过自动划分评论中肯定或否定的意见去挖掘对于某一产品的客户意见,并对其进行褒贬性的判别分类。文本中涉及到情感分类的对象一般有词汇、句子、段落以及篇章。而汉语语言的复杂性往往使词汇、句子及文本的情感检测研究面临很多的困难。由于在文本情感分类计算领域中,通常对各粒度层面的研究方法都不同,而且对涉及到某些语言学中情感因素的知识理解还不够详尽,从而造成对某些研究对象的情感判别出现与主观判断不符的情况。因此,本文首先在知网的基础上,对词汇语义倾向计算方法予以改进,并且根据语言学知识扩展了影响情感的各种因素。最后,对中文句子主题抽取与极性判别方法进行了详细的方法改进,并提出运用搭配规则匹配算法进行句子情感倾向的计算。以下是本文的主要研究内容:(1)在知网理论前提下,对基于中文的情感词汇倾向计算方法进行了改进。具体解决了知网中概念义原描述错位及出现概念歧义的问题,这一部分的工作有利于后续进行句子情感倾向的判别。(2)提出了对句子情感倾向影响因素的考虑及定量分析。首先将否定词进行扩展,并搭配语义倾向词汇对具体的修饰极性进行定量,更进一步研究了中文句子中否定共享问题,以及否定比较句中情感极性的转移问题,因为这些因素往往影响着复句结构中情感的倾向度。其次,对感叹句进行了详细的分析研究,分别从感叹词与搭配规则入手,从语言学角度出发,对可能出现的各种感叹句形式及表述予以情感分析。(3)改进了句子极性判别的具体方法,不再单纯依靠依存结构中的句法结构关系来转移极性值,而是根据定义的依存结构关系先对句子主题进行抽取,再考虑依存语法距离和修饰词极性对句子极性的影响。然后对句子进行否定规则匹配,使得句子层面的极性判别更为准确。其次,在词汇、句子情感倾向研究的基础之上,对中文文本情感倾向进行了具体的分析计算及设计应用。最后,针对本文提出的词汇、句子情感倾向所采用的方法,对系统进行了测评,并与其它基于知网的研究方法进行实验比较,结果表明本文提出的方法的有效性,且情感分类的准确率和精确率均有所提高。