论文部分内容阅读
当下互联网技术迭代更新频繁,网络社交媒体更是呈现出蓬勃的发展态势,民众在互联网上发表意见的渠道得到了极大拓展,造成了网络信息资源的极速增长。网络信息资源通常以非结构化数据为主,文本信息作为最典型的非结构化数据占据着极大比例,而且这些文本信息往往都蕴含着用户针对热点事件或品牌口碑的情感倾向,从这些海量的文本中获取有用的情感信息是一件具有挑战性的事情。因此,情感挖掘技术应运而生,该技术主要通过文本分析挖掘其中的情感信息,并对其进行情感分类。其中句子级的情感挖掘技术应用最为广泛,在品牌口碑评价和舆情监控领域都有着较大贡献。本文主要对句子级的情感挖掘方法进行了研究,涉及的主要工作如下:1)基于句法依存分析的情感分类模型研究。传统的情感挖掘方法一般只关注词语本身,忽略句子的句法结构和词语之间的语义关联度,而这些信息在文本情感挖掘中有着重要作用。为此,本文提出了一种基于句法依存分析的情感分类模型,主要包括句子级的情感信息抽取策略和基于KNN算法的依存关系簇情感判别方法,并在NLP&CC 2013数据集上进行了测试。与传统方法相比,该模型的准确率显著提升,召回率基本持平,F1值略微提升,且较容易受到训练集规模的影响。2)基于中文情感词的句子情感倾向性研究。PMI-IR算法作为情感倾向计算领域的典型算法,在英文的语言环境下提出,不能完全适用于中文。另外,该算法采用的标准词单一、情感分类粒度不够,且涉及到发送HTTP请求进行信息检索使得计算比较耗时。本文针对以上缺陷提出了相应的改进策略,包括标准词扩展、细粒度情感倾向分析、定义中文环境下的情感词组抽取模式以及对情感词组的语义倾向结果添加缓存机制。最后通过实验表明,改进后的PMI-IR算法的情感分类效果较好且比较稳定。3)基于文本分析的情感分类系统的设计与实现。本文在提出的基于句法依存分析的情感分类模型和改进的PMI-IR算法基础之上,实现了一个基于文本分析的情感分类系统,用户能够个性化地选择功能模式,最终通过参数配置对文本进行情感分类。