论文部分内容阅读
随着web2.0的兴起和社会网络的迅速发展,人们以网络为媒介发表自己对某个事件或事物的评论和看法。产品评论作为最重要的情感信息来源,一直被学术界广泛使用。如何挖掘这些产品评论中所蕴含的丰富情感信息,成为当前自然语言处理(Natural Language Processing,NLP)相关领域的研究热点之一。复述是指使用不同的词汇来表达相同含义的句子或短语。由于复述具有广泛的获取来源,且可以引入丰富的语言特征,所以复述在NLP的很多领域中都有重要的应用。本文在深入分析汉语产品评论的复述特点基础上,从语义角度出发,探索语义和情感极性相融合的意见复述抽取方法。并将获取的复述知识应用于汉语产品意见文本分析,以缓解统计情感分析所面临的数据稀疏问题,从而提高了情感分析性能。具体地,本文从以下三个方面展开研究:(1)基于语素的汉语未登录词词义预测问题。汉语词义标注任务是语义分析的基础任务,可为其他中文信息处理任务提供有效的语义特征。未登录词的词义预测一直是制约汉语词义消歧任务准确率的瓶颈问题。本文以语素作为基础,在最大熵模型的框架下,重点研究内部特征和外部特征在预测未登录词词义方面的作用。实验证明,内部、外部特征的融合对未登录词词义预测效果有一定的提高。(2)融合语义和情感极性的意见复述识别。本文以意见要素为基本单位,探索语义和情感极性相融合的意见复述识别方法,并分析和比较了不同的复述识别方法。实验结果证明了融合语义和情感极性的意见复述识别方法的有效性。(3)基于复述生成的情感分类问题。本文通过复述生成方法对产品评论进行复述扩展,解决基于统计方法所面临的数据稀疏问题。本文在不同条件下进行情感分类实验比对和分析,实验结果证明引入复述生成对于提高情感分类准确率有显著提高。