基于深度学习的微博评论情感分类研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:lzwxy105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网飞速发展的背景下,网络社交媒体发展迅速,微博在新媒体发展浪潮中,已经成为国内最大的社交媒体平台之一。将微博评论进行情感分类尤为重要。在大数据人工智能盛行的时代,情感分析技术逐渐被挖掘出来并且被推广应用,深度学习在情感分类方向的发展越来越火热。结合深度学习方法,发现目前较为火热的BERT(Bidirectional Encoder Representation from Tranformers)模型基于中文编码方式采用的字符级编码,而英文编码采用的是词级编码,这在一定程度上会导致模型中文分类的效果不如英文分类;目前深度学习模型存在冗余度高,过度参数化导致的计算速度慢、内存消耗大的问题。本文针对以上问题对已有算法进行改进,旨在构造精确、高效的微博评论情感分类模型。本文主要创新点如下所示:为了消除中文编码的限制性,本文基于深度学习主流算法,构建融合算法BERTCNN(Bidirectional Encoder Representation from Tranformers and Convolutional Neural Network),同时利用BERT的语义提取能力以及CNN局部特征提取能力以消除BERT字符级编码带来的影响,提升模型分类效果。利用BERT获取具有句子全局特征(语义、语序、上下文联系等高阶特征)的字向量,将字向量输入到CNN中以获取更精确的分类结果。并与ELMo-CNN、GPT、BERT做对比。在本文数据集以及simplifyweibo_4_moods公开数据集上测试结果表明,BERT-CNN的Micro_P、Micro_R、Micro_F1相较于其他三个模型均有不同程度的升高,实验证明,BERTCNN具有更好的文本分类效果,证实了我们的方法具有强大的捕获句子中语义能力以及良好的分类性能。针对BERT-CNN模型存在过度参数化、计算速度慢、内存消耗大的问题,采用新型压缩方法-逐步替换法,将其压缩为GRBERT-CNN模型。该方法优势是前期让原始模块与替换模块一起进行训练,这种训练方法可以让替换模块更好的继承原始模块的“特征”;该方法采用了两种替换策略:恒定替换策略和非恒定替换策略;后期将所有训练完的替换模块组合成新的压缩模型来替代原始模型,最后进行微调。该方法不要额外的损失函数,依然采用微博评论分类任务的损失函数。GRBERTCNN模型相较于BERT-CNN模型,其精确率仅下降了1%-2%,保留了其97%的性能;模型大小由112M降低为62M,降低一半左右;运行时间由2.9h减少到1.3h,运算速度翻倍以及内存占用率明显降低,解决模型运行速度慢、计算量大以及内存消耗的问题,同时也证实了该方法的可行性。
其他文献
磁共振成像是一种非侵入式的活体成像技术,拥有对比度高、无辐射等优点。清晰的图像可为临床诊断提供依据。在实际扫描过程中,患者移动、设备噪声等因素会导致图像质量下降。超分辨率重建技术可在不改变硬件设备的条件下提高图像质量,拥有成本低、重建质量高的优点,在医学图像重建领域有着重要的应用与研究价值。本文针对现有超分辨率重建算法的不足展开如下工作:1)为解决重建图像纹理不够清晰、不真实的问题,本文将纹理迁移
随着可穿戴电子设备的日趋普及,通过能与人体发生充分交互作用的纺织品与电敏感材料整合所制成的“电子纺织品”,实现对人体与外界环境之间发生的电力学转换、热湿交换、温度与热量传递、光吸收与发射等物理指标信号进行数字化识别和传输,是传统纺织品向智能化、信息化发展的重要研究课题。其中利用纺织品独特的结构特点制备的应变传感器,更具有实际的应用前景,如对心跳、脉搏、呼吸、发音、肢体动作等生理和运动指标进行监测。
随着通信网络的发展和计算机技术的进步,控制模式开始由传统的点对点模式向网络化模式转变,形成了一种通过共享网络来实现控制器、传感器和估计器等各节点之间信息传输的控制系统—网络化控制系统(Networked Control Systems,NCSs)。目前,虽然针对NCSs的研究已经取得了大量成果,但仍有一些问题没有得到很好的结论。例如怎样解决约束下的最优状态估计问题?如何给出分布式系统中各传感器的信
随着人工智能的发展,多智能体的协同控制在机器人协作、飞行器编队和柔性制造等诸多方向的应用都有良好的前景,受到越来越多的关注。本文研究了非线性多智能体系统在非严格反馈结构下的双向一致性以及包容控制问题。针对合作竞争多智能体系统,在输入饱和存在时提出了能够在有限时间内实现双向一致性的控制策略。针对系统中状态不可测量的情况,提出了基于神经网络状态观测器的自适应有限时间包容控制策略。论文研究的主要内容概述
图像语义分割是一种视觉场景理解任务,目标是预测输入图像中每个像素的类别标签,从而实现在像素级别上的物体分割。语义分割被广泛应用于自动驾驶、机器人技术、医学影像分析和视频监控等领域,因此提升图像语义分割的效果和精度具有重要的理论研究意义和现实应用价值。现有研究表明图像语义分割的精度受到已标注的样本数量以及模型结构设计等因素的影响,当前研究方法在一定程度上均存在依赖大量标记数据和对上下文信息利用不充分
随着科技的不断进步,人们对纺织品的要求不仅是保暖与外形的美观。在科技引领时尚的年代,智能可穿戴纺织品引起了人们极大的兴趣。在智能可穿戴领域,柔性力学传感器是最为广泛应用的监测装置。它可以将人体在运动过程中受到的物理力学刺激转化为可测量、传输和记录的信号,以监测人体生命体征与外界环境变化带来的力学刺激,被广泛应用于医疗、体育运动、健康监测和人机交互等领域。人体在运动过程中会做出各种幅度的肢体动作,同
α-半乳糖苷酶(α-galactosidase,α-D-galactoside galactohydrolase;EC 3.2.1.22)也称蜜二糖酶,是一种外切糖苷酶,催化移除不同底物中α-连接的末端非还原性D-半乳糖。α-半乳糖苷酶在医疗、食品、化工及饲料等方面都有着广泛的应用前景。在饲料工业中,α-半乳糖苷酶添加剂是去除豆粕中α-半乳糖苷寡糖类抗营养因子的首选方法,但是目前饲用α-半乳糖苷酶
随着计算机,现代技术,通信技术等飞速发展,研究网络化非线性系统不仅在理论上具有重要意义,而且在现实社会中具有实用价值。本文针对网络化非线性系统及网络化交联系统进行研究。众所周知,滤波器已成为控制及信号处理系统等领域的重要研究课题,且普遍用以工业、商业和机关团体的配电网、航天科技、声音信号处理及图像处理等各个领域。本文针对特定系统设计相应的模糊滤波器,由于带宽有限,在网络化系统中设置事件触发生成器,
锂电池的荷电状态(State of Charge,SOC)估计和健康状态(State of Health,SOH)估计是电池管理系统中最重要的两个功能,能够为电池的能量分配和及时更换提供依据。为了提高电池SOC与SOH估计结果的准确度,本文以18650型锂电池为研究对象,提出基于二阶RC等效电路模型的联合估计方法,并在不同实验工况下对联合估计方法进行验证。论文的主要研究内容如下:第1,对比几种常用
目前,港口巡检机器人多采用接触式充电,电缆插头长期暴露在潮湿的空气中,存在较大的安全隐患。为保证系统的安全稳定运行,实现电源与负载的电气隔离,本文设计了一套适用于巡检机器人的单管逆变无线供电电源。论文具体工作如下:首先对单管逆变无线供电电源主电路进行研究,详细分析主电路工作过程和开关管电压应力,并对补偿网络的输入电压进行基波等效。在此基础上,对PS型主电路进行建模分析,推导出系统的增益公式,系统的