论文部分内容阅读
进入web2.0时代以来,中国的网民数量不断攀升,使以互联网为代表的新兴媒体成为大众表达愿望、交流沟通的重要工具,用户的身份从以往的信息接受者转向为信息发布者,这就使得互联网上堆积了大量用户产生的信息,这些信息当中蕴含着用户的情感态度和政治倾向。挖掘用户产生信息中的情感信息,分析用户的情感倾向性,对商品推荐,了解社情民意等有着重要意义。比较句是用户产生信息中常见的一种句式,通过对两个事物的比较,可以判断出同类的两种事物中的异同和优劣,对这一类问题进行研究解决可以在产品评论挖掘、客户信息管理、社情民意收集等领域提供信息支撑,对实体识别、关系抽取、类别平衡等热点问题的研究有一定的参考价值。对比较句的倾向性研究是综合自然语言处理中多个关键技术于一体的研究,包括文本分类、实体抽取、情感分析等。本文所研究的内容是在第四届和第五届中文倾向性评测任务的基础上,对中文比较句进一步研究,包括比较句识别、比较关系抽取以及比较句的情感倾向性判定,主要研究工作包括以下几个方面:(1)利用关联特征词表进行比较句识别。关联规则是形如X→Y的蕴涵式。其中, X和Y分别称为关联规则的前导和后继关联规则挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则。本文依据该算法的基本原理构建关联特征词典,将总结出来的比较句特征以规则的方式存储到关联特征词典中用于中文比较句的识别。(2)利用条件随机场模型进行比较关系抽取。比较关系抽取是指提取出比较句的关键组成元素。比较句的组成要素包括比较主体、比较客体、比较属性和比较结果。条件随机场理论是2001年首次被提出的,结合了最大熵模型和隐马尔可夫模型的特点,近些年在倾向性分析、词性标注和命名实体识别等序列标注任务中取得很好地效果,被广泛应用到信息抽取领域。本文分别利用条件随机场的学习方法和预测方法对比较句进行特征提取和模型训练,抽取出比较句的主要组成元素,并结合比较句的句式特征分析出比较主体、比较客体、比较属性及比较结果。(3)利用情感词典对比较实体进行倾向性计算比较句的倾向性分析主要是判断评论人对比较句中的比较主体和比较客体的情感倾向性。本文在前两部分研究工作的基础上通过构建多个情感词典的方法来计算比较句中实体的倾向性。