论文部分内容阅读
随着网络技术的普及、网络文化的多元化发展以及我国网民的日益增多,社交媒体工具成为人们日常生活必不可少的交流媒介,社交媒体文本的情感分析也逐渐成为自然语言处理领域的一个活跃的研究方向。微博由于其简单易用,传播迅速等特点,成为大众发表言论、表达情感的重要平台之一,因此产生了大量带有情感的文本数据,对这些带有情感的微博文本进行情感分析将为政府、企业以及个人的决策提供有效地帮助。然而,在现在的网络大环境下,人们表达自己观点和情绪的词语越来越多,为了提高处理情感分析任务的水平,针对微博短文本网络新词多、文本特征密度低等特点,本文对微博新词发现方法、微博短文本向量表示模型以及微博短文本情感分类模型进行了研究。主要研究工作包括:(1)针对基于N-Gram的新词发现方法产生很多垃圾词串的问题,本文结合互信息、左右邻接熵等统计量以及停用词典和常用词典对微博新词发现方法进行了研究。对N-Gram切词产生的二元和三元组,分别使用互信息和邻接熵对词语的内部凝固度和边界自由度进行了度量,得到候选词集后,再使用停用词典和常用词典加以过滤,得到最终新词集。实验结果表明,所提新词发现方法在NLPCC2014微博语料数据集上能够有效地发现新词。(2)针对微博短文本特征稀疏及语义欠缺的问题,提出了基于BERT嵌入的微博短文本向量表示方法,该方法对预处理后的短文本使用BERT模型进行词嵌入,在将文本转换为向量的同时,对一词多义进行了捕获,从而产生更精确的文本表示向量。实验结果表明,与基于Word2Vec的CBOW模型产生的向量表示相比,基于BERT的词向量能够取得较好的情感分类效果。(3)针对目前基于深度学习的微博短文本情感分析方法在对文本情感特征进行提取时情感词或情感短语重要弱化的问题,本文引入了注意力机制,并结合Bi GRU深度神经网络,提出了一种基于注意力机制的BiGRU-Att模型的微博短文本情感分析方法。实验结果表明,相较于CNN、BiLSTM、Bi GRU,改进后的模型能有效提高情感分类准确率。