基于深度学习的微博短文本情感分析技术研究

来源 :西安建筑科技大学 | 被引量 : 2次 | 上传用户:JGTM2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的普及、网络文化的多元化发展以及我国网民的日益增多,社交媒体工具成为人们日常生活必不可少的交流媒介,社交媒体文本的情感分析也逐渐成为自然语言处理领域的一个活跃的研究方向。微博由于其简单易用,传播迅速等特点,成为大众发表言论、表达情感的重要平台之一,因此产生了大量带有情感的文本数据,对这些带有情感的微博文本进行情感分析将为政府、企业以及个人的决策提供有效地帮助。然而,在现在的网络大环境下,人们表达自己观点和情绪的词语越来越多,为了提高处理情感分析任务的水平,针对微博短文本网络新词多、文本特征密度低等特点,本文对微博新词发现方法、微博短文本向量表示模型以及微博短文本情感分类模型进行了研究。主要研究工作包括:(1)针对基于N-Gram的新词发现方法产生很多垃圾词串的问题,本文结合互信息、左右邻接熵等统计量以及停用词典和常用词典对微博新词发现方法进行了研究。对N-Gram切词产生的二元和三元组,分别使用互信息和邻接熵对词语的内部凝固度和边界自由度进行了度量,得到候选词集后,再使用停用词典和常用词典加以过滤,得到最终新词集。实验结果表明,所提新词发现方法在NLPCC2014微博语料数据集上能够有效地发现新词。(2)针对微博短文本特征稀疏及语义欠缺的问题,提出了基于BERT嵌入的微博短文本向量表示方法,该方法对预处理后的短文本使用BERT模型进行词嵌入,在将文本转换为向量的同时,对一词多义进行了捕获,从而产生更精确的文本表示向量。实验结果表明,与基于Word2Vec的CBOW模型产生的向量表示相比,基于BERT的词向量能够取得较好的情感分类效果。(3)针对目前基于深度学习的微博短文本情感分析方法在对文本情感特征进行提取时情感词或情感短语重要弱化的问题,本文引入了注意力机制,并结合Bi GRU深度神经网络,提出了一种基于注意力机制的BiGRU-Att模型的微博短文本情感分析方法。实验结果表明,相较于CNN、BiLSTM、Bi GRU,改进后的模型能有效提高情感分类准确率。
其他文献
近年来随着计算性能和样本数量等都得到了几何数量级的提高,深度学习得以发挥它的优势,在图像处理相关领域取得了突出的成就。人脸检测、特征提取、人脸识别等领域的研究已相
性别识别是生物特征识别中的一项关键性课题,在军事、公共安全、智能监控、大数据分析和行人重识别等诸多领域都具有广泛的应用前景。相比于传统的基于面部特征进行识别的方
ZM6镁合金是在实际航天航空材料中应用广泛的材料,航空航天领域应用的铸件多以复杂件为主,其中壁厚突变结构常见于各类薄壁复杂构件中。壁厚突变结构因其各部位凝固时间差异
稳定性问题是控制理论的核心问题之一,而实用稳定性理论作为现代运动稳定性理论的研究方向之一,主要研究给定的初始估计区域与随后偏差估计区域的运动,并且实用稳定并不弱于
双果糖酐Ⅰ(α-D-fructofuranose-2′,1:2,1′-β-D-fructofuranose dianhydride,DFA Ⅰ)是一种由两个果糖组成的环状二糖,与功能性二糖双果糖酐ⅠII(α-D-fructofuranose-2′,1
纳米材料是纳米技术推广应用的基石,在不同领域其表现出了不同特殊性能,在科技发展和社会进步中起到中流砥柱的作用。纳米材料具有大的比表面积,优良的力学、光学、电学、磁
近年来,重建隐藏场景问题引起了越来越多的关注,非视域成像技术通过对携带隐藏场景信息的光场进行采集和处理从而完成目标的重建,在许多重要应用中具有很大的潜力,包括医学,
在保险公司投资的过程中,买卖股票(风险资产)是需要佣金、印花税、过户费的,即交易股票是有交易费用的,尤其是频繁的交易时,投资者的整体交易费用是很大的。因此本文研究了交
短文本已经成为互联网个体在个人独立网络平台上发表意见和分享信息的重要形式。大量的日常信息,如微博、新闻源、网络搜索、论坛信息,已经远远超出了人工所能处理和理解的能
PPP(Public-Private Partnership)模式,作为一种新的融资模式,自引入我国以来就被广泛的应用于各个领域。通过我国这三十年对PPP项目建设的推进,PPP模式已经形成了三种较为稳