基于深度学习的微博评论情感倾向研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:ashdkja51321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代网络时代中,微博成为现代网民表达意见和情感观点的主要载体,在社交媒体中占据了很大比重。大部分微博评论表现了网民用户针对某个事件、现象或者用户与产品的情感状态。而使用何种算法与处理方式可以更快、更准确的分析这些微博文本信息,及时获取针对某个话题或事件的微博评论情感倾向,获得话题舆论倾向性也成为自然语言处理领域的研究热点。传统的情感分析方法常常使用文本的统计特征或情感词典构建句子特征,这种方法存在无法获取句子语义信息和分类误差率高的缺点。而现在网络上的数据量不断增大,统计特征的提取难度也不断增加,同时情感词典的判断方式(仅通过情感词计数)相对简单且鲁棒性低。而传统的统计机器学习方法使用文本的统计特征训练,并不能很好的学习到文本的语义信息。为了解决上述问题,本文提出一种基于词嵌入文本特征的深度学习改进算法,进行微博评论的情感分析工作。本文的创新点主要有:(1)使用神经网络语言模型在较大规模语料数据上进行训练,以更方便的无监督训练方式学习词语的隐层语义特征,使用词嵌入向量取代传统文本特征的提取方法,然后使用该文本特征进行深度模型的监督训练;(2)为了在深度模型训练时可以获得更多文本语义特征,更有效的完成文本情感分析任务,在深度模型中引入了可以改变序列信息权重的注意力机制,提出了基于注意力机制的RNN-att和RCNN-att等模型;(3)为了同时提取语句各部分局部特征和语句位置依赖信息,本文提出了层级平行行融合的C-RNN模型,使用卷积提取局部特征的同时,在模型同一层使用RNN模块来记忆位置依赖关系。为了验证本文提出方法的有效性,本文使用Word2Vec训练语言模型提取词向量特征,并使用统计模型SVM、随机深林、梯度提升树、高斯朴素贝叶斯和深度模型TextCNN、RNN、RCNN和C-RNN等模型基于词嵌入文本特征来学习微博评论中的情感信息,输出情感分类结果。本文使用爬取到的微博评论文本42万条和其他补充中文数据集作为语言模型的训练语料。并从训练语料集中筛选得到35285条数据标注后作为模型数据集,以9:1比例分割为训练集和测试集。性能评估使用精准率、召回率、F1-Score作为评测指标,在上述数据集上进行了多组模型间的对比实验。根据实验结果,统计模型中GBDT使用300维度词向量获得了较佳的表现精准率为0.8417、召回率为0.8416和F1-Score为0.8416,在深度模型中RCNN-att使用200维度词向量获得了最佳的性能表现精准率为0.9266、召回率为0.9266和F1-Score为0.9266,且当词向量维度为50时,C-RNN-att获得了该组数据中的最佳性能表现,F1-Score为0.9153。以上实验结果表明,神经网络语言模型词嵌入可以比较好的学习语言文本的隐层语义信息,且基于词嵌入文本特征的深度模型在情感分析任务中比统计模型有着更好的性能表现,且通过引入注意力机制可以进一步使深度模型获得2个千分点~2个百分点左右的性能提升。文章中所研究的改进深度算法,可以在更大规模数据集中展开训练,在更高维度的语言模型中能够进一步提升算法的推理能力。
其他文献
现行GDP核算存在着很大的弊端,表现在经济增长没有反映出生态环境成本。作为经济增长与环境保护的一个有效结合点,绿色GDP体现了科学发展观的要求,既坚持了以人为本,又坚持了全面
本文在对广东纺织业发展现状和我国清洁生产的法律体系综述的基础上.从国家和地方两个层面分析了广东省纺织业清洁生产的法规政策要求,指出纺织行业实施清洁生产具有重要意义,并
信用衍生工具是一种使信用风险从其他风险中分离出来,并从一方转让给另一方的衍生金融工具,它为金融机构提供了一种崭新的风险管理方式。本文简要介绍信用衍生工具的概念和种类
实验利用数字全息干涉技术对电极反应过程中溶液浓度变化分布进行测量。运用基于直方图的自适应滤波方法和基于形态学滤波的固液界面提取方法,解决了每更换一次实验数据都要人工识别和更换滤波参数以及手动去除固侧干扰信息的难题,为实现从摄像机实时读取数据、实时处理、测量和观察提供了仿真依据。
以卫星气浮转台实验为背景,介绍了基于实时嵌入式系统的气浮转台无线测控通信子系统的设计。利用VxWorks操作系统实时性强、多任务调度的特点,对转台上的串口数据采集、转台上
针对传统微处理器平台中存在的接口速率瓶颈问题,提出了基于现场可编程门阵列(FPGA)的以太网解包电路的硬件实现方法。主要介绍了接收数据帧的实现方法,该设计具有通用性好、可扩
2007年11月14日,北京——全球口f编程逻辑解决方案领导厂商赛灵思公司(Xilinx,Inc.(NASDAQ:XLNX))今天宣布推出新一代嵌入式处理解决方案,致力于在范围广泛的多种应用领域,为设计‘人员
《共产党宣言》(以下简称《宣言》)中对世界历史发展的分析是从资本主义生产方式入手的。同时,马克思恩格斯揭露了资产阶级在创造世界历史过程中的剥削压迫本质,并号召无产阶
针对超高频和微波段射频识别系统(RFID)信号在噪声干扰和多标签环境下难以辨识的问题,提出一种新的RFID信号辨识方法。以均匀直线阵为基础,采用空间谱估计算法正确估计出波达方向(DOA),再根据信号波达方向通过数字波束形成技术产生自适应定向波束来辨识信号。仿真分析表明,该方法具有较低的信噪比门限和较高的信号辨识和防碰撞性能。