论文部分内容阅读
微博作为运营商和用户之间迅捷沟通的全新平台,其规模庞大的用户群每天都会产生海量的信息,对这些信息背后的情感倾向性进行归纳、分析、总结,可以帮助运营商实现宣传、服务以及营销等重要功能。传统的情感分析相关研究包含基于词典和基于机器学习方法两类,但情感词典的建立、维护和更新需要大量人力,而基于机器学习的方法依赖于人工特征工程且对数据序列中隐藏的情感信息学习能力有限。自深度学习兴起之后,其较强的表达能力与无需人工进行特征选择和构建的优点在情感分析研究中取得出色的表现。本文在运营商微博评论文本数据上进行了基于机器学习和基于深度学习两个方面的情感分析研究,具体工作如下:(1)爬取运营商微博评论文本建立本次研究的语料库15000条数据,对其进行文本预处理和词向量训练,得到机器学习模型和深度学习模型的数据输入;(2)在基于机器学习的情感倾向性研究中,分别采用传统的TF-IDF和基于神经网络模型的Word2vec方法进行特征提取,从而构建实验数据作为机器学习模型SVM、Na?ve Bayes、Logistic Regression的输入,并进行情感倾向性分析实验设计和总结;(3)针对机器学习模型的局限性,将深度学习模型引入到情感倾向性分析研究中。由于双向LSTM能够得到包含全局语义信息的维度可控特征向量,减小序列信息的先后顺序对输出的影响,而Attention机制的引入更能关注重要词对输出的概率分布值,最大程度地解决信息冗余问题,所以本文改进了一种融合Attention机制的双向LSTM模型来解决情感分类问题。通过在不同类型数据集上的实验设计与结果分析,得出深度学习模型在文本情感倾向性分析中的有效性,且改进的模型取得了最好的分类结果。该论文有图48幅,表15个,参考文献61篇。