论文部分内容阅读
随着互联网2.0技术的不断发展,从海量的文本数据中挖掘有价值的信息已经成为各行各业的热点问题。传统的数据挖掘主要是从结构化数据中提取有意义的信息。网络的发展致使非结构化数据不断地增多,从非结构化数据中提取有价值的信息已经成为自然语言处理中的焦点。随着移动设备端的普及,微博作为移动设备端的重要社交工具,每天都在产生文本数据,从这些微博数据中研究微博文本提供者的意图和目的是焦点问题。本文着眼于中文微博情感分类的模型研究,并将研究成果应用于2019年微博中关于“垃圾分类”的讨论和2020年1月“关注新冠肺炎”的讨论的两个数据集上,实验结果表明了所提出模型的有效性。近年来国内外学者对微博情感研究仅仅从正面和负面两个方面进行研究。针对此不足,本文结合结巴分词、上下文词嵌入模型、长短期记忆网络、循环门单元网络以及自注意力机制,提出了适用于微博情感多分类的模型。首先,用加入各种网络新词、表情词自定义词典库的结巴分词将清洗后的文本数据进行分词,分词后,同样用适用于微博文本特点的方法训练词向量模型,将中文词语转化为有限维实数向量;其次将词向量分别输入到长短期记忆网络和循环门单元网络中学习微博文本集的情感特征;最后将长短期记忆网络和循环门单元网络的每个状态与自注意力机制相连,并接入输出层。两个数据集上的实验结果表明:1.相对于普通文本集训练的词向量模型,用针对微博语言特点训练的词向量模型,对微博文本中词语刻画更加准确;2.相较于长短期记忆网络模型,循环门单元网络模型更容易收敛、训练时间更短,更适用于微博文本情感分类;3.通过对循环门单元传播层不同方向的设置可以达到保留和控制文本的上下文特征的目的;4.自注意力机制能够有效地学习句子中不同部分的文本信息,同时能注意到每个词与自身的关系。5.相比较与单一的长短期记忆网络模型、循环门单元网络模型,混合的神经网络模型在中文微博情感分类任务中效果更加明显。在本文提出的微博文本情感分类的框架中,自注意力机制可以弥补长短期记忆网络、循环门单元网络的梯度问题,提高了模型的分类性能。本文提出关于情感分类深度学习的混合模型,在其他类似的短文本的中文文本分类上均可借鉴使用。