论文部分内容阅读
随着互联网的发展,人们获取信息的需求不断增加,而面对庞大的网络信息量,同时也给人们获得需要的信息带来极大的困难。网络信息中极为典型的是博客文本,或简称博客。博客中常包含大量评论,包含了博客作者对人,事物,事件等的情感和态度(统称为观点)。这些情感和态度包含着大量有价值的信息。了解这些“观点”、“情感极性”或“态度”可以帮助人们获得更有价值的信息,从而进行有效的抉择,如告诉人们应当购买何种商品,帮助商家制定市场策略,帮助政府掌握网络舆情。分析和挖掘博客中蕴含的博客作者的观点成为当前数据挖掘领域研究热点之一。观点挖掘是一种从论坛、讨论组等内容中挖掘所表达的观点的技术。一般观点挖掘有四个子任务:(1)话题抽取(Topic Extraction)(2)观点持有者识别(Holder Identification)(3)陈述的选择(Claim Selection)(4)情感分析(Sentiment Analysis)。观点挖掘的研究国外起步早,主要针对英文文本;国内针对中文文本的观点挖掘研究起步晚,很多基础性工作尚在进行中。目前,绝大部分的研究把情感极性(或者称为情感倾向,即人对客观事物的好、恶,褒、贬,支持、反对等态度)分为2类(正向和负向)或3类(正向、中立和负向)。众所周之,人的情感是丰富的,仅仅使用这2、3种,不足以表达蕴含在博客文本中的作者的情感,需要用更多类的情感极性来表达。目前,基于作者,日期和话题等对博客文本进行聚类研究已有先例,而基于情感极性对中文博客文本聚类研究仍鲜见报道。本文主要根据博客文本中的作者的情感极性,采用聚类技术,将中文博客文本进行分组处理,使组内文本的情感极性相近,组间文本具有不同情感极性,并达到细分情感极性的目的。经研究发现,尽管博客文本中包含了丰富的情感,不过这些情感可能很分散,而博客搜索引擎搜索到的博客搜索结果项(指标题和摘要部分)虽然包含的情感比较少,但是这些情感倾向性相对集中。所以,本次研究使用博客搜索结果来作为博客文本的精练表达,从而以此为研究对象。本文首先设计一个“爬虫”,用它来获取Google博客由此得到确定话题(本文实验部分选用了两个话题“建国大业”与“刘翔”)相关的结果。然后,使用人工标注的方法根据情感极性把采集到的数据集标注成3类(正向,中立和负向)。接着,使用中科院ICTCLA分词工具对搜索结果数据集进行分词预处理,并使用基于词典的方法提取情感词(文中采用了Hownet和NTUSD两部中文情感词词典)。紧接着,使用Adam Schenker, Horst Bunke等提出的“标准的基于图的文本表示模型”(简称为GBR模型)和本文作者设计的“整合图文本表示模型”(简称为SoB-graph模型)分别表示数据集文本;在此基础上使用Adam Schenker, Horst Bunke等使用的基于图文本表示模型的K-Medoids算法,进行情感聚类分析。最后,使用簇中心方法表示了聚类情感簇,所谓簇中心即同类情感词的折衷情感词,并使用"Ground Truth"方法的三个常用度量:精度(Precision),熵(Entropy)和边缘索引(Rand Index)对聚类结果进行评介。实验结果表明:使用作者提出的SoB-graph模型进行的聚类分析性能较好。