基于深度学习的网络舆情文本分类方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:cqufy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各类网络社交媒体平台的兴起,社会舆论已经转向网络空间,形成了海量的网络舆情,并且大量专业术语和特定用语的出现,导致网络舆情难以及时发现,舆情事件频发。为了防范潜在的舆情风险,一般使用文本分类方法对网络文本进行初筛,然后使用数据挖掘方法对高敏感主题进一步分析处理。但是针对大规模的网络文本,现存方法对掺杂其中的语法和句法信息未能充分利用,并且未针对敏感主题文本的低资源问题进行处理,导致舆情文本分类的准确率和效率偏低。本文利用自然语言处理等技术,提出了基于深度学习的文本分类模型,提高了网络信息监管机制的效率。本文主要包括以下三个方面:(1)针对网络文本中语法句法知识未充分利用的问题,本文提出了一种基于多层信息融合的网络舆情文本分类模型。该模型采用基于注意力机制的多层信息融合算法,实现提高句向量表征的信息维度,并且对特征提取器输出的多层向量按照训练出的权重参数进行特征融合,从而提高了文本分类的预测精度。在真实数据集上的实验表明,本文提出的基于多层信息融合的网络舆情文本分类模型多类别分类下F1值达到83.98%,较基准模型提升达6.41%。(2)针对大规模的不平衡数据文本分类效率较低的问题,本文分析了数据集中文本间的关系和主题模型理论,提出了一种基于主题识别的网络舆情文本分类优化方法。该方法通过对文本聚合成的文档进行主题识别实现聚类处理,从而在网络舆情类别样本数量较少的情况下能够高效地排除无关类别数据。在真实数据集上的实验表明,本文提出的方法使得文本分类效率提升59.55%,改进的文本分类模型F1值较基准模型提升6.17%。(3)基于上述方法,为了实现网络舆情识别的便捷化,本文设计并实现了一种可对网络舆情文本进行分类的系统,并在该系统中集成了上述两种文本分类模型。依据软件工程的开发流程,本文对该系统的工程化开发步骤进行设计并实现。用户可通过简单操作快速进行对网络舆情文本的分类,这为网络舆情文本的快速甄别提供了有效的技术手段。
其他文献
黄苞大戟(Euphorbia sikkimensis)是大戟科(Euphorbiaceae)大戟属(Euphorbia)植物,在中国广西、贵州、湖北、四川、云南和西藏等地广泛分布。其根入药,常用于肾炎水肿、腹胀、便秘、疟疾、风湿和黄疸等疾病的治疗。该属植物的主要有效成分为二萜类化合物,具有抗肿瘤、抗炎、抗菌、抗HIV等药理活性。黄毛翠雀花(Delphinium chrysotrichum)是毛茛科
学位
智慧体育的兴起,带动了运动事业的发展。当前用户一般通过运动平台或私人教练两种方式获取运动方案,然而前者存在个性化不足,后者存在时效性差等问题。因此,本文针对个性化运动减肥需求,构建了一种基于改进人工雨滴算法的减肥运动处方生成模型,在此基础上设计并实现了个性化减肥运动处方应用系统。主要研究内容如下:首先,针对当前减肥运动处方在实践应用过程中实用性和适用性不足的问题,设计了一种减肥运动处方生成模型。该
学位
2020年政府工作报告强调,要立足于我国巨大的内需市场潜力,使提振消费与扩大投资有效结合、相互促进。同年7月21日,习近平总书记在企业家座谈会上指出,要构建“国内大循环为主体、国内国际双循环相互促进的新发展格局。”在当前世界形势正经历百年未有之大变局,我国国内经济形势面临深刻转型的关键阶段,构建新发展格局,着力扩大内需是对于我国未来经济发展的重大战略部署,如何于新的历史方位中开新局、育新机,在新时
学位
随着互联网的高速发展,旅游信息爆炸式增长导致“信息过载”问题愈发严重,旅游推荐系统研究受到广泛关注。学者们通过加入辅助信息缓解旅游推荐中存在的数据稀疏问题。针对现有推荐模型对多源异构辅助信息建模能力不足问题,本文提出基于图注意力网络的旅游景点推荐模型并在此基础上进行路线推荐。具体研究内容如下:首先,针对现有景点推荐模型建模时信息源考虑不足,以及对游客、景点与各种信息源间复杂交互无法精准建模的问题,
学位
终端设备的爆炸性增长以及用户对服务质量要求的增加促进了边缘计算以及云边端协同的流式服务加载模型的出现。然而,不可靠的分布式场景和跨节点的服务迁移使得流式服务加载的安全性和可靠性受到威胁。缺乏有效的身份验证机制和不可否认机制意味着无法保证互不信任的终端设备和边缘节点之间的信任传递,进而阻碍流式服务加载的进一步发展。区块链作为一种分布式网络数据管理技术,利用密码学与分布式共识协议保证全网一致、不易篡改
学位
[目的]探究城市碳承载力基底,为城市“双碳”目标实现和低碳发展提供科学支撑。[方法]基于2000,2005,2010,2015,2020年四川省宜宾市土地利用数据,通过InVEST模型测度了宜宾市生境质量和碳储存量,构建了宜宾市碳承载力评价指标体系,对宜宾市的碳承载力水平进行深度地分析研究。[结果]宜宾市碳承载力呈现“先提升,后下降,再提升”的变化特征,2000,2005,2010,2015,20
期刊
染色是整个纺织品生产链中的重要环节,直接影响织物的染色牢度、色泽和商品质量。而染色工艺涉及染液浓度、温度、染色时间、PH值等诸多因素。其中,最关键的因素是拼染过程中多组分的染液浓度检测。但传统的混合染液浓度检测方法对仪器要求较高,操作繁琐,导致染液浓度检测准确率偏低,并且不能实现实时在线检测。所以,纺织行业迫切寻求新的浓度检测方法,实现混合染液浓度方便快捷准确的检测。本文分析了RGB检测方法的优势
学位
大脑的神经活动强烈依赖于脑血管网络,神经元活动所需要的氧气和营养物质以及代谢产生的废弃物都需要由血液通过脑血管进行运输。全脑三维显微成像方法,能够对哺乳动物全脑血管进行高分辨率成像,获取毛细血管分辨率水平的脑血管网络图像。血管分叉点是脑血管网络中的关键节点,准确的从三维图像中检测并提取血管的分叉点位置,对于重建脑血管网络和理解脑功能疾病的发病机理具有重要作用。传统分叉点检测方法无法摆脱对人工的依赖
学位
虽然深度学习算法在图像分类中应用非常广泛,然而因为在实际场景中,获取标注数据的成本非常大,所以难以收集到足够多的标注数据来训练分类模型,模型往往陷入过学习或欠学习的问题。另外,目前大部分机器学习算法都难以有效地从数量有限的样本中学习好的图像分类模型的能力。因此,小样本学习依然是图像分类问题的研究重点之一。本文提出了基于幂阶变换技术和标准化技术的动态分布校正样本生成方法以及改进的反陷入GAN样本生成
学位
三维扫描技术突飞猛进的发展、相关科学技术的进步以及多种传感器设备的飞速发展为三维数据的研究提供了重要的发展机遇。点云作为三维数据的重要表示形式,在很多研究领域都有着广泛的应用场景。而基于深度学习的点云语义分割和实例分割技术已成为模式识别、测绘、计算机视觉等多个领域的研究热点,蕴藏着巨大的应用潜力。目前已有的基于深度学习的点云语义分割方法主要关注点云全局或局部特征的提取,忽略了点云的形状信息以及点间
学位