融合话题与情感的舆情演化分析技术及实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:kzyzf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,网络媒体成为人们发布和获取新闻信息的重要平台,同时也成为广大网民扩散和讨论新闻事件的集散地。在此背景下,舆情演化分析的研究热度逐年攀升。舆情演化分析是包括话题抽取与情感极性分析在内的多种技术的综合,其中话题抽取可以展现相关事件的话题发展脉络,情感极性分析可以展现网民对相关话题的情感极性和强烈程度。将功能相互补充的话题抽取与情感分析相结合则可以用更加全面的视角展现舆情演化信息,然而相关研究在两个方面仍存在一定缺陷:在话题抽取中,传统话题模型用关键词进行话题表示,导致话题的语义完整度不够;在情感极性分析中,语言模型缺乏句子级预训练的问题使得情感分析模型的逻辑感知和语义表达能力不足,进而导致模型的情感极性分类效果有待提高。对于以上研究中存在的问题,本文首先提出一种基于文本摘要的舆情话题抽取方法,即用文本摘要取代关键词进行话题表示,旨在提高舆情话题的语义完整度;然后提出一种基于迁移学习的舆情情感极性分析方法以增强模型的逻辑感知与语义表达能力,进而提高模型对新闻舆情的情感极性分类效果。在此基础上,本文设计并实现融合话题与情感的舆情演化分析系统,用更加精确、多维的方式呈现舆情的演化过程。具体而言,本文工作主要包括以下三个方面:(1)针对传统话题模型难以对新闻舆情进行语义完整的话题抽取的问题,本文提出基于抽取式摘要的话题抽取模型Sum Topic。模型从新闻文本中选择最为关键的句子作为话题表示,有效避免了传统话题表示方法信息不足的缺陷。同时本文基于正交分解策略对摘要模型的打分机制进行改进,从而更容易挑选出足够重要的句子。在CNN/DM和NLPCC数据集上的实验表明,模型能抽取出比基线模型更好的文本摘要。(2)针对语言模型缺乏句子级预训练任务导致其逻辑感知和语义表达能力欠缺问题,本文提出基于迁移学习的情感极性分析模型Trans-Emotion。模型首先在新闻舆情数据中进行句子级文本排序任务,该任务训练模型将局部扰乱的文本恢复为正常语序的能力并以此来提高模型的逻辑感知与语义表达能力,之后将学到的模型编码参数迁移到情感极性分析模型中。迁移学习可以为情感极性分析打下良好的语义编码基础,模型进而可以获得更高质量的句子特征表示。在公开数据集上的对比实验表明,迁移学习有效增加了模型对新闻舆情的情感极性分类效果。(3)本文设计并实现了融合话题与情感的舆情演化分析原型系统。结合以上所提的Sum Topic模型和Trans-Emotion模型,并在充分的系统设计以及功能验证后,本文构建了融合话题与情感的舆情演化分析系统。系统可以从情感与话题双视角展现舆情演化过程。作为检验,本文以“新冠肺炎”相关舆情为例,展示了系统的实际运行效果。
其他文献
随着大数据时代来临,数据交易对于数据价值的发挥具有不可替代的重要意义。基于UMA协议的数据交易模式使数据拥有者可以委托授权管理器对自己数据访问进行更丰富的控制,简化数据交易流程,促进数据流通。但基于UMA协议的数据交易模式还存在如下安全问题。首先,基于UMA协议的数据交易模式中的授权管理器并非完全可信,可能作为攻击方或者与攻击方共谋,对数据交易过程中关键数据进行篡改;其次,随着用户购买数据增多,大
学位
学位
随着物联网技术的快速发展,常见的身份认证技术如基于设备MAC地址、安全证书、身份认证指令等方式,都存在易伪冒、易被窃取的弊端。将无线设备的物理层信号特征作为设备射频指纹可以实现设备的分类与识别,这对物联网的物理层安全研究具有重要意义。本文选择LoRa设备作为研究对象,分析了LoRa信号的调制技术及其物理层帧格式,提出了3种指纹特征提取方法,并通过对8个设备进行实验,验证了所提特征的有效性和稳定性。
随着互联网的快速发展,社交媒体大大提高了信息的传播速度和传播范围。然而,社交媒体缺乏监管不受限制的特性也助长了谣言的迅速传播,网络谣言的广泛传播对公众获取真实有效的信息造成了严重的干扰,轻者影响人们对于事实的判断和认知,对个人生活造成负面影响,重者可能会造成严重的社会恐慌,影响社会的和谐稳定发展。因此准确的网络谣言检测,对于阻止谣言的广泛传播,防治网络谣言带来的危害,具有十分重要的研究价值和社会意
随着中国工信部向三大运营商发放5G(The 5th Generation,5G)商用牌照,中国正式进入5G商用元年。社会进入万物互联的时代,无线终端和数据量都呈现指数式增长,对无线通信资源的需求越来越大。大规模分布式多输入多输出(Multiple-Input and Multiple-output,MIMO)技术得到了广泛的研究,它具有显著改善系统资源配置的灵活性和大幅度提升无线资源利用率的优点。
随着移动互联网的发展,越来越多的移动应用程序(APP)在互联网上被开发和发布,各大APP应用商店也应运而生。但是现阶段网络上有诸多的含有风险的APP,它们或传播了不良信息,或侵犯用户隐私。对于网络安全分析人员来说,全面的APP信息有助于甄别APP的风险程度。每当业务人员发现一个风险APP,发现此APP的相似APP也至关重要,因为与风险APP相似的APP有极大可能存在风险。如何从大规模的APP中计算
数据挖掘能够发现数据中的潜在规则模式,为辅助决策提供支撑。聚类是数据挖掘的重要基础功能,聚类过程对业务数据的访问不可避免地带来隐私泄露问题。随着人们对个人隐私的日益重视,如何在保护数据隐私的同时实现聚类成为亟待解决的问题。差分隐私是实现隐私保护的一种有效技术,近年来得到了研究者的持续关注。针对现有基于差分隐私的聚类方法在隐私安全和聚类质量方面存在的不足,提出基于差分隐私的距离矩阵扰动方法,以及基于
随着深度学习理论的迅速发展,以及计算机硬件水平的升级,基于深度学习的通用目标检测方法研究取得重大进展,涌现出众多代表算法:YOLO、Faster RCNN和Center Net等,应用领域广泛。然而当通用的目标检测算法运用到小目标检测领域时,存在网络结构冗余、小目标检测精度较低、密集小目标漏检等现象。综合考虑实际目标检测场景中准确性和实时性的要求,本文对经典的单阶段目标检测算法YOLOv4进行研究
微表情是人类无意识产生的面部微动作,其反应了人类的真实情感状态。这使得微表情在医疗诊断、商业谈判、刑事审讯等方面具有广泛的应用。微表情具有持续时间短、强度微弱、局部发生等特点,这些特点使得人类准确识别微表情十分困难。因此,自动微表情识别成为了计算机视觉、模式识别和情感计算研究领域中一个备受关注的课题。本文针对微表情识别中的关键任务:跨领域面部微表情识别,结合微表情的自身特点和域自适应方法,围绕微表