论文部分内容阅读
文本情感分类是自然语言研究领域中的重要课题,目前对于文本情感分类研究多是基于情感词典和机器学习方法的,但它们在完成情感分类任务时割裂了文本中各词语间的关系,忽略了词语在上下文中的含义,无法捕捉到文本的深层语义信息,对于表达不规范的网络短文本的情感分析准确性更是有待提高。近年来,基于深度学习方法的研究日益加深,各学者也通过使用深度学习技术在自然语言研究领域中取得了众多突破。因此,本文提出使用深度学习方法对网络平台上的中文短文本进行情感类别判定,主要研究工作如下:(1)针对带有情感类别标注的中文数据集较少问题,本文采用编写爬虫程序的方式从京东商城官网上共爬取了 25000条评论文本,同时也利用word2vec工具在中文公共语料库的基础上训练出各词语的语义向量以解决情感分类实验时如何将文本数据数值化的问题。(2)针对文本表示问题,本文分别使用以tf-idf来表示特征权重的向量空间模型和word2vec训练的词向量模型来构造传统机器学习模型实验时的文本数据,通过分析实验结果发现,考虑了上下文含义的word2vec词向量更能让模型学习到文本中的情感信息,使其分类性能得以提升。但是提升程度有限,始终无法突破90%,这表明了浅层的机器学习方法对于复杂的、深层次的语义信息理解能力不够,也从侧面反应了运用深度学习方法实现对网络短文本情感分类的必要性。(3)针对传统机器学习模型和经典卷积神经网络模型在文本情感分类任务中所存在的不足,本文提出了一种融合情感特征的双通道卷积神经网络模型SFD-CNN(double channel convolutional neural network model fused with sentiment feature)。该模型在对实验文本数据进行向量化表达时不仅考虑了词语特征的语义信息而且还融入了其相应的情感特征属性,从而获取更多情感信息;同时,该模型还以双通道机制来提取不同表示方式下的文本特征。(4)设置多组比较实验,将所提出的融合情感特征的双通道卷积神经网络模型SFD-CNN同融合情感特征的卷积神经网络模型SF-CNN(convolutional neural network model fused with sentiment feature)、双通道卷积神经网络模型D-CNN(double channel convolutional neural network model)以及常用传统机器学习方法中效果最好的SVM进行对比。实验结果表明,模型SFD-CNN效果最好,准确率高达92.94%,相比于原始CNN模型提高了 2.19%,证实了本文的研究工作对于短文本的情感分类研究具有一定意义和贡献。