基于深度学习的微博短文本情感分析技术研究

来源 :西安建筑科技大学 | 被引量 : 2次 | 上传用户：JGTM2000

【摘要】

：

随着网络技术的普及、网络文化的多元化发展以及我国网民的日益增多,社交媒体工具成为人们日常生活必不可少的交流媒介,社交媒体文本的情感分析也逐渐成为自然语言处理领域的

【作者】

：

秦欣

【出处】

：

西安建筑科技大学

【发表日期】

：

2020年01期

【关键词】

：

微博情感分析深度学习新词发现 BERT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的普及、网络文化的多元化发展以及我国网民的日益增多,社交媒体工具成为人们日常生活必不可少的交流媒介,社交媒体文本的情感分析也逐渐成为自然语言处理领域的一个活跃的研究方向。微博由于其简单易用,传播迅速等特点,成为大众发表言论、表达情感的重要平台之一,因此产生了大量带有情感的文本数据,对这些带有情感的微博文本进行情感分析将为政府、企业以及个人的决策提供有效地帮助。然而,在现在的网络大环境下,人们表达自己观点和情绪的词语越来越多,为了提高处理情感分析任务的水平,针对微博短文本网络新词多、文本特征密度低等特点,本文对微博新词发现方法、微博短文本向量表示模型以及微博短文本情感分类模型进行了研究。主要研究工作包括:(1)针对基于N-Gram的新词发现方法产生很多垃圾词串的问题,本文结合互信息、左右邻接熵等统计量以及停用词典和常用词典对微博新词发现方法进行了研究。对N-Gram切词产生的二元和三元组,分别使用互信息和邻接熵对词语的内部凝固度和边界自由度进行了度量,得到候选词集后,再使用停用词典和常用词典加以过滤,得到最终新词集。实验结果表明,所提新词发现方法在NLPCC2014微博语料数据集上能够有效地发现新词。(2)针对微博短文本特征稀疏及语义欠缺的问题,提出了基于BERT嵌入的微博短文本向量表示方法,该方法对预处理后的短文本使用BERT模型进行词嵌入,在将文本转换为向量的同时,对一词多义进行了捕获,从而产生更精确的文本表示向量。实验结果表明,与基于Word2Vec的CBOW模型产生的向量表示相比,基于BERT的词向量能够取得较好的情感分类效果。(3)针对目前基于深度学习的微博短文本情感分析方法在对文本情感特征进行提取时情感词或情感短语重要弱化的问题,本文引入了注意力机制,并结合Bi GRU深度神经网络,提出了一种基于注意力机制的BiGRU-Att模型的微博短文本情感分析方法。实验结果表明,相较于CNN、BiLSTM、Bi GRU,改进后的模型能有效提高情感分类准确率。

其他文献

基于深度学习的人脸性别识别的研究与实现

近年来随着计算性能和样本数量等都得到了几何数量级的提高,深度学习得以发挥它的优势,在图像处理相关领域取得了突出的成就。人脸检测、特征提取、人脸识别等领域的研究已相

学位

Caffe深度学习框架人脸性别识别卷积神经网络

基于步态序列的性别识别方法研究

性别识别是生物特征识别中的一项关键性课题,在军事、公共安全、智能监控、大数据分析和行人重识别等诸多领域都具有广泛的应用前景。相比于传统的基于面部特征进行识别的方

学位

步态序列性别识别步态特征图像支持向量机卷积神经网络

ZM6镁合金铸件应力与工艺特性分析

ZM6镁合金是在实际航天航空材料中应用广泛的材料,航空航天领域应用的铸件多以复杂件为主,其中壁厚突变结构常见于各类薄壁复杂构件中。壁厚突变结构因其各部位凝固时间差异

学位

ZM6合金粘弹塑性工字型构件应力场模拟

非线性正系统的实用稳定性

稳定性问题是控制理论的核心问题之一,而实用稳定性理论作为现代运动稳定性理论的研究方向之一,主要研究给定的初始估计区域与随后偏差估计区域的运动,并且实用稳定并不弱于

学位

实用稳定性非线性正系统线性时变正系统切换系统时滞系统

来源诺卡氏菌属的菊糖果糖转移酶的性质鉴定与应用

双果糖酐Ⅰ（α-D-fructofuranose-2′,1:2,1′-β-D-fructofuranose dianhydride,DFA Ⅰ）是一种由两个果糖组成的环状二糖,与功能性二糖双果糖酐ⅠII（α-D-fructofuranose-2′,1

学位

双果糖酐Ⅰ菊糖果糖转移酶酶学性质双酶联用

基于纳米材料的电化学生物传感器的制备及应用

纳米材料是纳米技术推广应用的基石,在不同领域其表现出了不同特殊性能,在科技发展和社会进步中起到中流砥柱的作用。纳米材料具有大的比表面积,优良的力学、光学、电学、磁

学位

纳米材料苝酰亚胺电化学生物传感器过氧化氢

被动非视域半影成像方法的研究

近年来,重建隐藏场景问题引起了越来越多的关注,非视域成像技术通过对携带隐藏场景信息的光场进行采集和处理从而完成目标的重建,在许多重要应用中具有很大的潜力,包括医学,

学位

非视域成像半影成像正向传输模型二维图像重建优化寻找

马氏环境下带交易费用的风险模型研究

在保险公司投资的过程中,买卖股票(风险资产)是需要佣金、印花税、过户费的,即交易股票是有交易费用的,尤其是频繁的交易时,投资者的整体交易费用是很大的。因此本文研究了交

学位

交易费用Sinc数值算法期望折现分红总量阈值分红策略期望折现罚金函数

基于SentenceLDA主题模型的短文本分类研究

短文本已经成为互联网个体在个人独立网络平台上发表意见和分享信息的重要形式。大量的日常信息,如微博、新闻源、网络搜索、论坛信息,已经远远超出了人工所能处理和理解的能

学位

短文本分类SentenceLDA主题模型特征扩展词向量

PPP项目收益上限水平及超额收益分配研究

PPP(Public-Private Partnership)模式,作为一种新的融资模式,自引入我国以来就被广泛的应用于各个领域。通过我国这三十年对PPP项目建设的推进,PPP模式已经形成了三种较为稳

学位

PPP项目实物期权收益上限水平超额收益分配

基于深度学习的微博短文本情感分析技术研究

与本文相关的学术论文