论文部分内容阅读
随着互联网在中国的普及,人们的生活方式也逐渐地发生变化,越来越多的人通过互联网获取和发布信息。广大互联网用户开始在微博上传播政治话题、体育话题、娱乐话题。每天都有大量的具有分析价值的微博评论产生,这些评论信息包含大量情感信息和观点。微博研究已经成为热点。通过对中文微博情感分析相关文献的研究,发现微博情感分类方法主要有两类:基于情感词典的方法和基于机器学习的方法。由于中文语法复杂,基于机器学习的方法无法保留了情感相关特征项之间的关系,也无法应对多个情感词和评价对象的情况。而基于情感词典的方法,在情感极性分类过程中,较少考虑到微博话题领域词汇,同时情感词典中的情感词不区分情感词之间情感强弱,这样使得分类结果的准确性受到影响。目前中文微博情感分析缺乏针对性研究,忽略评价对象对情感的极性和强弱影响,而且情感特征项抽取算法也有待改进。针对这些问题,本文采用基于情感词典的方法,选择中文情感词汇本体库作为本文的基础情感词典,有效地改进以往情感词典不区分情感之间情感强弱的缺点。并且采用一种基于HowNet的词汇语义相似度计算方法,构建面向微博话题的领域情感词典。同时考虑到评价对象对微博情感分类的影响,构建合理的评价对象词典。本文采用规则和SVM模型进行观点识别,筛选出和微博话题相关的微博评论,提高情感分析中评论文本的质量。然后对微博评论文本进行相应的文本预处理,并采用平滑算法、语法规则相结合,作为微博评论文本情感特征项抽取方法,对微博评论中的否定词、程度副词、微博表情符号、情感词以及评论中的评价对象做相应的处理。最后本文结合微博评论语句情感计算公式,对评论句的情感倾向进行分类,有效改进了以往微博情感分析的缺陷,实现了一个能够较为合理判断微博评论句情感强弱的计算公式。不同的话题,其领域词典存在不同。本文基于微博话题构建针对性的情感倾向词典和评价对象词典做特定话题的情感分析研究,可以进一步提升情感分析效果。实验数据采用数据堂提供的微博语料,包含生活、交通事故、科技三个领域的微博话题评论数据,实验结果表明,本文设计的观点识别方法和情感分类模型与以往的分类模型对比,观点识别和情感分类效果具有明显提升,说明本文提出的方法具有合理性和有效性。