论文部分内容阅读
随着移动互联网的普及,微博作为社交平台已经成为了事件爆发的最快消息来源。对于企业来说,微博用户博文中包含的情感信息成为企业重要决策参考。为了能够方便准确地从微博中获取情感信息,提出了一种基于本体和句法依存相结合的微博情感分析法。将包含核心词的空白本体持久化到数据库,然后利用句法依存原理,从采集的微博数据中提取句法依存关系来进行本体更新,接着提出了一种新的情感权值计算方法,将本体维度信息考虑在内实现情感分析。实验表明,该方法在描绘微博数据情感倾向性上,较其他方法有长足的优势。本文的主要研究内容如下:1.利用核心词的关联名词扩充语料库。网民微博评价数据中,有时会略掉核心词和敏感词,更会为产品起代称,代称所包含的信息条目有时甚至比原称更多,因此只利用原称来分析不够客观和全面。本文利用工具对原始数据进行了降维处理,再从原始数据中获取与原称最相似的名词,然后去爬取所对应的微博数据,以达到扩充语料库的目的。2.利用句法依存关系扩充本体的维度。本体多依赖于手动创建,此方法覆盖维度较少且工作量巨大,对效率会造成极大影响,且维度会出现空维度的情况。本文利用句法依存关系,从微博数据中发现跟核心本体相关的依存关系,然后利用依存关系的相关词来自动扩充本体维度。3.利用句法依存关系扩充本体情感词汇。本体的维度存在一些特定的情感词,是在初始创建时无法预料到的,对于这部分需要在数据中挖掘的词语,本文利用句法依存关系,在数据的遍历中寻找到对应维度的情感词汇,并加入本体系统中,从而达到自动扩充情感词汇的目的。4.利用本体信息提出了一种新的情感权值计算方法。本文提出了一种基于本体维度的情感权值分析方法,该方法将情感词所在的本体维度考虑进去,这样能够充分利用情感词的空间位置信息,避免不重要词语权重过大的情况出现,能够更充分地反映数据整体的情感倾向。5.以“蒙牛”为研究对象,利用工具完成“蒙牛”微博数据的爬取,从中发现核心名词关联名词,然后爬取关联名词微博并进行筛选,接着利用数据完成“蒙牛”本体的持久化和内容扩展,最后计算出情感倾向性。通过实验对比结果,证明本文所构建的新方法在描绘微博数据情感倾向性上,较其他方法有长足的优势。