持续性社会媒体事件的关键日期检测研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:jigmei123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,智能设备的大量普及使得社会媒体用户呈现出爆炸式增长。当社会上有突发事件发生时,广大网络用户会第一时间报道、转发、跟踪该事件。由此产生的大量数据包含有丰富的信息同时也导致一些重要的信息难以被发现。自动时间线摘要可以从社会媒体语料中自动检测关键子事件,并用时间线的方式展示出事件的整体过程。关键日期选择是社会媒体自动时间线摘要中的一个非常重要的子任务,目的是从一个持续性社会事件的海量媒体数据中检测出事件中重要子事件发生的关键日期,提升时间线摘要中日期的精确性。基于传统语料的日期检测工作往往通过发掘语料中日期的表达,然后根据日期的频率或者日期之间的关系找出关键日期。由于社会媒体语料中很少有日期的表达,所以传统的方法不能很好地适合社会媒体语料。基于社会媒体语料,我们有以下观察:(1)子事件发生时相关报道突然增多;(2)不同子事件受人们关注的持续时间不同,并且子事件之间往往相互影响。我们提出一个内容相关的图模型对日期进行排序进而检测关键日期。该模型将发表日期集作为候选日期集,并使用词袋模型对每个日期收集到的文本数据进行表示。然后根据不同日期之间关键词的词嵌入余弦相似度来计算不同日期之间的关系,构建一个融合突发性特征和子事件内容相关性特征的日期关联图。基于该图使用随机游走的方式检测关键日期,在“阿拉伯之春”推特数据集上的实验表明了我们模型的有效性。
其他文献
自然语言处理是人工智能领域的重要研究方向,词表示作为自然语言处理工作中的基础工具也越来越成为研究的热点之一。目前流行的词表示学习的方法主要遵循分布假说。基于这项
西瓜是我国重要的水果,其种植面积、产量和消费量都居世界第一。西瓜病毒病的发生是阻碍西瓜产业可持续发展的重要因素之一。在侵染西瓜的几十种病毒中马铃薯Y病毒属病毒种类
染色体非整倍性(ChromosomeAneuploidy)是一类染色体数目不是成倍地增加或减少,而是单个或者几个的增加或减少的染色体异常。染色体非整倍性导致的胎儿严重出生缺陷不仅给患
Erd(?)s-Ko-Rado定理是极值集合论中的重要结论之一.该定理刻画的是由9)元集合中6)元子集构成的交族基数的上界以及达到上界时交族的结构.Erd(?)s-Ko-Rado定理不仅在结合方案,-设计和图论等方面有广泛的应用,而且在有限域上的向量空间,奇异线性空间,仿射空间和双线性型图等数学对象上有自然的推广.在本文中,我们通过研究构作的两个函数的单调性以及结合仿射奇异线性空间的计数公式,分别
老街巷是城市社区空间环境的重要构成部分,是与人们日常生活联系最为紧密的城市公共空间。本文结合我国对城市老街巷的建设要求,系统的调查兰州市特色老街巷空间环境现状,综
机械设备在运行过程中的任何异常状态都会给整个生产过程造成巨大损失。压缩机作为石油化工行业的重要设备,对其运行状态进行监测,不仅可以保证设备的安全可靠运行,更能有效
砌体结构在我国城镇化发展过程中很长一段时间内仍继续存在。但由于自身材料的局限性导致历次地震中抗震性能较差。已证明砌体结构窗下墙率先发生破坏的抗震性能、延性特征及
工程结构承受的荷载经常受到很多不确定性因素影响,如施工误差、测量误差以及温度变化等环境因素的影响。在这些环境因素的影响下,很难保证荷载确定不变。承受不确定荷载作用
互联网技术的飞速发展使得多媒体技术迅速兴起,文本、音频、图像以及视频等多媒体数据的制作、存储和传播,变得越来越方便和快捷,并且不会导致内容质量的下降。但是通过网络传输的多媒体数据极易被盗版者非法拷贝、修改和传播,版权所有者的权益得不到保障。数字水印技术通过在多媒体数据中添加某些信息,可达到保护版权并证明其真实可靠性的目的。针对数字图像的版权保护以及内容认证问题,本文以量化水印算法以及压缩感知理论为
公路路面在使用的过程中,在所处的环境气候、逐年增加的交通荷载、养护管理单位的养护维修水平等各种不确定性的因素影响下,路面使用性能会呈现衰减趋势,出现不同程度破损,其