论文部分内容阅读
随着我国互联网的迅速发展,越来越多的社交网络媒体,如论坛、微博、公众号等,为网民提供了表达意见的平台。越来越多的网民利用这些社交平台来表达他们对各种社会现象和社会事物的观点。在这个信息传播空前迅速的时代,网络民意表达的需求日益多样化。如果网络舆情引导不当,负面舆情广泛传播会对社会公共安全构成严重威胁。网络舆情从本质上反映了社情和民意,加强社会治理重要的一环便是要加强对网络舆情的监管。本文围绕网络舆情分析的若干关键技术开展理论及应用研究。主要研究内容包括:(1)针对标注数据匮乏的低资源语言的命名实体识别问题,提出了一种基于双语言在词嵌入空间进行知识对齐关联映射的知识蒸馏学习模型,利用具有丰富标注数据的源语言训练的教师模型来指导训练低资源语言的命名实体识别;(2)针对NLP任务中训练数据不足的问题,提出了一种运用自然语言解释来生成、增强数据集的方法,并实现一个从自然语言解释中学习外部知识的情感分析模型;(3)针对社交媒体网络的谣言检测问题,提出一个使用双向GCN异构网络并融合微博语义信息的谣言分类模型,并提出一种谣言早期发现的方法;(4)综合运用网络舆情分析的关键技术,设计并实现了一个多语种舆情监测系统。具体研究如下:(1)为了更好地解决标注数据匮乏的低资源语言的命名实体识别问题,有效利用从具有丰富标注数据的多资源语言中学习知识,本文提出了一种基于知识蒸馏的师生学习模型My NER来解决这项挑战。具体而言,首先在源语言数据集上训练一个NER教师模型θsrc,然后使用逐词翻译技术将源语言在嵌入空间上转换到目标语言的嵌入空间,生成一个目标语言的伪造数据集,并据此训练一个教师模型θtra ns。然后使用知识蒸馏,利用教师模型θsr c和教师模型θtrans共同训练学生模型,得到预测的软标签。再次使用逐词翻译技术将未标注目标语言数据集转换成源语言的伪造数据集,并进行预测,从而得到硬标签结果。最后,结合上述的软标签和硬标签共同进行有监督训练,得到一个所需的学生模型。在Co NLL-2002、Co NLL-2003公开NER基准数据集和本实验室构建的维吾尔语数据集上,以英语作为源语言,其它3种低资源语言作为目标语言,使用My NER模型进行训练并预测。实验表示,My NER模型同时作用在三种低资源目标语言上的性能要优于基线方法。最后在真实场景下演示了该模型的应用细节。(2)针对多语种环境下,情感分析任务的标注数据匮乏和多语言间数据失衡问题,本文提出了一个从自然语言解释中学习知识的情感分析模型SANLE。根据预先提供的自然语言解释规则,SANLE框架可以为未标注的样本生成带有自然语言解释信息的标签,用来构建一个大的、弱监督的数据集来训练情感分类器。该模型由语义解析器、过滤器组和标签聚合器三个部件组成。语义解析器将预先提供的自然语言解释转换成多个程序化的标签函数,过滤器组在未标注的样本上将冗余的、错误的、重复的标签函数去除,标签聚合器将潜在冲突和重叠的标签组合为每个样本一个标签。然后使用生成的标签来训练基于注意力机制与Bi LSTM的情感分类模型。在Semeval2014-Task4的两个客户评论数据集上,利用自然语言解释作为外部知识来联合训练情感分析模型。实验表明,SANLE模型比基线方法具有更好的性能。最后在真实场景下演示了该模型的应用细节。(3)针对当前谣言检测方法仅依赖于从用户生成内容、用户账号信息或广泛传播的结构中寻找线索,却忽略谣言传播-扩散结构图与文本语义有效结合的问题,本文提出了一个谣言检测模型KRumor。它将微博文本的语义信息和双向传播异构图表征融合在一起,并利用标签函数将人工谣言检测的有效经验来为数据生成标签,联合训练谣言分类器。具体地说,本文利用注意力机制来学习微博文本的语义表示,并引入双向GCN在传播及扩散方向上捕获所有源微博、转发和用户之间的全局和局部关系表征;再将文本语义与传播异构图有效结合,共同训练谣言检测分类器。在新浪微博、Twitter15/16公开谣言数据集上训练模型并进行预测。实验表明,KRumor模型的性能优于基线方法。并通过检测微博评论的立场及情感变化趋势,实现谣言的早期发现。最后在真实场景下演示了该模型的应用细节。(4)使用本文提出的模型,结合网络舆情分析的关键技术,实现一个面向新疆地区的多语言舆情监测系统。系统架构上,该系统划分为数据采集层、数据挖掘层和信息服务层;系统功能上,该系统划分为重点站点监测、重点人物监测和热点主题监测。该系统在新疆地区具有广泛的应用前景,政府监管部门利用该系统可以了解社情民意,提高社会治理效率;企事业单位利用该系统可以了解民众对单位形象或品牌的舆论,有效提升企业形象。