网络舆情分析若干关键理论及应用研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:liuxiaotiancxks
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国互联网的迅速发展,越来越多的社交网络媒体,如论坛、微博、公众号等,为网民提供了表达意见的平台。越来越多的网民利用这些社交平台来表达他们对各种社会现象和社会事物的观点。在这个信息传播空前迅速的时代,网络民意表达的需求日益多样化。如果网络舆情引导不当,负面舆情广泛传播会对社会公共安全构成严重威胁。网络舆情从本质上反映了社情和民意,加强社会治理重要的一环便是要加强对网络舆情的监管。本文围绕网络舆情分析的若干关键技术开展理论及应用研究。主要研究内容包括:(1)针对标注数据匮乏的低资源语言的命名实体识别问题,提出了一种基于双语言在词嵌入空间进行知识对齐关联映射的知识蒸馏学习模型,利用具有丰富标注数据的源语言训练的教师模型来指导训练低资源语言的命名实体识别;(2)针对NLP任务中训练数据不足的问题,提出了一种运用自然语言解释来生成、增强数据集的方法,并实现一个从自然语言解释中学习外部知识的情感分析模型;(3)针对社交媒体网络的谣言检测问题,提出一个使用双向GCN异构网络并融合微博语义信息的谣言分类模型,并提出一种谣言早期发现的方法;(4)综合运用网络舆情分析的关键技术,设计并实现了一个多语种舆情监测系统。具体研究如下:(1)为了更好地解决标注数据匮乏的低资源语言的命名实体识别问题,有效利用从具有丰富标注数据的多资源语言中学习知识,本文提出了一种基于知识蒸馏的师生学习模型My NER来解决这项挑战。具体而言,首先在源语言数据集上训练一个NER教师模型θsrc,然后使用逐词翻译技术将源语言在嵌入空间上转换到目标语言的嵌入空间,生成一个目标语言的伪造数据集,并据此训练一个教师模型θtra ns。然后使用知识蒸馏,利用教师模型θsr c和教师模型θtrans共同训练学生模型,得到预测的软标签。再次使用逐词翻译技术将未标注目标语言数据集转换成源语言的伪造数据集,并进行预测,从而得到硬标签结果。最后,结合上述的软标签和硬标签共同进行有监督训练,得到一个所需的学生模型。在Co NLL-2002、Co NLL-2003公开NER基准数据集和本实验室构建的维吾尔语数据集上,以英语作为源语言,其它3种低资源语言作为目标语言,使用My NER模型进行训练并预测。实验表示,My NER模型同时作用在三种低资源目标语言上的性能要优于基线方法。最后在真实场景下演示了该模型的应用细节。(2)针对多语种环境下,情感分析任务的标注数据匮乏和多语言间数据失衡问题,本文提出了一个从自然语言解释中学习知识的情感分析模型SANLE。根据预先提供的自然语言解释规则,SANLE框架可以为未标注的样本生成带有自然语言解释信息的标签,用来构建一个大的、弱监督的数据集来训练情感分类器。该模型由语义解析器、过滤器组和标签聚合器三个部件组成。语义解析器将预先提供的自然语言解释转换成多个程序化的标签函数,过滤器组在未标注的样本上将冗余的、错误的、重复的标签函数去除,标签聚合器将潜在冲突和重叠的标签组合为每个样本一个标签。然后使用生成的标签来训练基于注意力机制与Bi LSTM的情感分类模型。在Semeval2014-Task4的两个客户评论数据集上,利用自然语言解释作为外部知识来联合训练情感分析模型。实验表明,SANLE模型比基线方法具有更好的性能。最后在真实场景下演示了该模型的应用细节。(3)针对当前谣言检测方法仅依赖于从用户生成内容、用户账号信息或广泛传播的结构中寻找线索,却忽略谣言传播-扩散结构图与文本语义有效结合的问题,本文提出了一个谣言检测模型KRumor。它将微博文本的语义信息和双向传播异构图表征融合在一起,并利用标签函数将人工谣言检测的有效经验来为数据生成标签,联合训练谣言分类器。具体地说,本文利用注意力机制来学习微博文本的语义表示,并引入双向GCN在传播及扩散方向上捕获所有源微博、转发和用户之间的全局和局部关系表征;再将文本语义与传播异构图有效结合,共同训练谣言检测分类器。在新浪微博、Twitter15/16公开谣言数据集上训练模型并进行预测。实验表明,KRumor模型的性能优于基线方法。并通过检测微博评论的立场及情感变化趋势,实现谣言的早期发现。最后在真实场景下演示了该模型的应用细节。(4)使用本文提出的模型,结合网络舆情分析的关键技术,实现一个面向新疆地区的多语言舆情监测系统。系统架构上,该系统划分为数据采集层、数据挖掘层和信息服务层;系统功能上,该系统划分为重点站点监测、重点人物监测和热点主题监测。该系统在新疆地区具有广泛的应用前景,政府监管部门利用该系统可以了解社情民意,提高社会治理效率;企事业单位利用该系统可以了解民众对单位形象或品牌的舆论,有效提升企业形象。
其他文献
改革开放四十多年来,我国经济发展取得了令人瞩目的巨大成就,但高增长也带来了不少负面后果,发展方式过于粗放,资源能源高消耗和污染高排放便是其典型表现之一。随着中国经济体量快速扩张,能耗和污染排放也越来越高,不仅造成了生态破坏,影响了民众身体健康和幸福获得感,也在全球范围造成一定的负外部性。简而言之,当前中国经济发展方式“绿色”程度不高,已经到了必须进行绿色转型的时候。但要推动中国经济实现绿色转型,还
目的探讨低分子肝素钙联合阿替普酶对急性肺栓塞患者血气指标及不良反应的影响。方法选取2019年2月至2020年1月本院收治的急性肺栓塞患者93例为研究对象,将入选患者随机编号1~93号,将奇数患者47例纳入对照组,将偶数患者46例纳入观察组。对照组给予阿替普酶治疗,观察组在对照组基础上增加低分子肝素钙治疗,比较两组治疗前后血气指标和不良反应情况。结果治疗后,观察组PaO2、PaCO2均高于对照组,P
自我国经济步入新常态以来,合理有效的去除企业的高杠杆、以及谨防实体经济“脱实向虚”这两个问题已成为学术界、政策制定者和社会各界关注的重要话题。由于企业房地产多元化战略意味着房价上涨将促使实体企业将有限的资源投资于房地产,它是我国经济“脱实向虚”的一种特殊形式。本文从“企业房地产多元化战略”出发,在企业层面探讨了经济“脱实向虚”现象带来的经济后果,包括企业房地产多元化战略对公司融资行为以及经营绩效的
血管性认知功能障碍(Vascular cognitive impairment,VCI)是由全脑长时间缺血或缺氧所导致的认知功能障碍综合征,认知功能相关脑区的功能异常是导致VCI的关键因素。探讨电针百会、神庭穴对VCI大鼠脑功能影像学的影响,并进行关键脑区差异蛋白表达分析,及其功能验证性研究,所获结果预期为临床应用提供理论基础和实验依据。方法:本研究共分为两部分实验:实验一:对雄性SD大鼠采用双侧
本文以清末新军与近代中国军事转型为主题,以新军在清末军事近代化历程为主要研究对象,结合湘淮勇营的比较,全面论述了清末新军仿效西法编练,逐步实现军事近代化的情况,揭示了新军军事近代化在中国近代军事转型中的地位、作用及影响。论文在近代政治转型的大背景下,以重大历史事件为线索,纵向梳理了清末新军编练的演进过程,从军事转型的内容出发,横向剖析了新军军事近代化过程中军事改革指导思想、军事制度、武器装备、军事
伴随国际援助体系的变革,三方合作作为沟通南南合作与南北合作的桥梁,正呈现由小众议题发展成为主流议题的趋势。不同于经合组织(OECD)发展援助委员会(DAC)寄希望于通过三方合作将新兴援助国纳入由其主导的国际援助体系的立场,新兴援助国的态度则相对复杂。其中,印度的案例具有一定特殊性。印度拒绝接受传统援助国的援助理念与规范,与传统援助国开展三方合作似乎并不符合其逻辑,然而曾经偏于边缘的三方合作正在成为
学位
职工提问:张某被一家劳务派遣公司派遣到B公司工作后,因B公司所提供的机器设备存在安全隐患,长时间没有从根本上消除,导致他在上班时间受到伤害,落下三级伤残,并被认定为工伤。请问在劳务派遣公司没有为张某办理工伤保险且亏损严重无法向他赔偿损失的情况下,他能否要求B公司担责?
期刊
医疗保障改革效果评估是根据国家医疗保障的发展目标,运用多种方法,采用特定的指标体系,按照规范化的程序,对政策改革实施一定时期后的效果进行客观、公正、综合的评价。医疗保障设立的初衷是为了减轻患者医疗费用的负担,从而使被保障的人民获得尽可能高的健康水平。如今,随着我国经济、社会、科技等方面的发展,居民的医疗需求也逐渐提高,不断提升医疗保障的覆盖比例,进一步减轻居民负担,这是推动医疗保障不断改革、内容不
随着制造业的快速发展,面对镍基高温合金等难加工材料大余量去除的迫切需求,传统电火花加工较低的加工效率成为制约放电加工技术进一步发展的主要瓶颈。短电弧加工是一种以高能量电弧放电为能量载体的新型放电加工方法,不仅继承了传统电火花加工不受材料硬度、强度和韧性等限制的优点,还可以实现材料的大余量快速去除,已经成为难加工材料高效加工的一种重要技术手段。本文针对短电弧高效铣削加工中气液混合介质击穿过程、放电通