基于社交媒体的突发事件主题挖掘与知识图谱构建

来源 :武汉大学 | 被引量 : 0次 | 上传用户:cailing12530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随Web2.0时代的到来,社交媒体平台也受到越来越多人的追捧。每当一个突发事件发生时,很多用户会选择在新浪微博、Twitter等社交媒体平台上发表自己的意见、转发及传播事件相关的信息,同时融合众多无关信息,形成海量的社交媒体数据。而如何从大量的数据中提取出一个热点突发事件及事件相关的主题,并以一种容易理解的方式呈现给需要的用户是值得研究的方向。然而社交媒体数据的文本简短、不规范、冗余度高、规模庞大等特点使得传统的主题模型及事件探测方法在该类数据上的不适用。因此本文提出一种基于共现关系网络的突发事件主题探测方法,该方法更适合于社交媒体短文本数据的主题挖掘。并结合该方法进行突发事件的探测,以知识图谱的形式对事件及事件对应的信息进行可视化,从而提高事件的可理解性及可追溯性。本文的主要研究工作如下:(1)提出基于共现关系网络进行突发事件主题挖掘的方法。该方法使用TFIDF从社交媒体文本中抽取出能反映突发事件主题的特征关键词,并根据关键词在文本中的共现关系,以关键词为节点构建共现网络,然后基于Louvain社区探测算法对网络进行社区探测,并识别主题社区。以2012年北京暴雨微博数据为例,进行暴雨灾害事件主题关键词提取、网络构建、社区探测及主题识别等步骤,并使用LDA主题模型进行暴雨灾害主题的提取。将两种方法的主题结果对比,证明本文提出方法在社交媒体数据上的有效性与优越性。并对灾害相关主题在时空上的分布进行分析,从而为灾害的评估理解与应急措施的决策提供重要的支撑。(2)基于社交媒体构建事件知识图谱。基于本文提出的共现关系网络主题挖掘方法进行事件的探测,并结合命名实体识别技术,获取事件相关的发生时间、地点、参与人物、文本等实体,并以三元组的形式构建实体之间的关系,以图的方式进行存储,从而将事件以知识图谱的形式进行规则化可视化,提高事件的可理解性。基于2019年香港事件Twitter数据,以一天为时间单位,对整个时间区间内的多个突发事件及相关实体进行提取,构建知识图谱,并参照新闻数据,证明所提取事件的真实性。基于知识图谱进行单日热点事件分析及事件知识的快速检索,详细了解事件的相关信息,从而加强对整个时间区间香港事件的理解。
其他文献
随着城市化的推进以及工业化、信息化、科技化的快速发展,中国社会进入深化转型的变革期,社会氛围更加开放和包容,80/90青年逐渐向经济发展前景更好、公共服务设施更为完善的大城市集聚,一方面重塑着中心城市的景观,另一方面以自身独特的方式促进思想价值观念、政治发展、科技进步、文化传承、经济转型等社会核心要素的改造与变革,大城市青年化现象逐渐彰显。在社会青年化和消费升级大背景下,从小生活条件优越的80/9
水库大坝不论是建设时期还是服役时期,首要考虑的就是其安全性问题。只有在大坝安全的前提下,才能更好的发挥其经济效益和社会效益。在实际运行过程中,采用监测手段获取的监测资料是大坝的运行状态最直接的表现,也是最真实的反映。因此对监测资料进行分析,可以掌握大坝的运行性态,同时在此基础上建立大坝的安全监控模型和综合评价模型能够更进一步保障大坝安全运行,并将其进行软件实现,便捷大坝的管理工作。为此,以水东混凝
第一部分一种改良的经食道电刺激诱发的大鼠心搏骤停模型的建立目的:通过经食道电刺激的方法,建立一种简单稳定的大鼠心搏骤停(CA)模型,以便于心搏骤停后脑复苏的研究。方法:成年健康雄性SD大鼠26只,随机分成假手术组(n=6)和CA组(n=20)。经口插入一个5 F冠状窦标测电极,电极尖端距门齿约7 cm。运用高频电刺激(频率50 Hz,脉冲持续时间2 ms,电压30 V)持续刺激3 min来诱发CA
作为历史学科诸素养中价值追求的目标,家国情怀素养怀着对本国历史的温情与敬意,以提升学生的素质和修养为中心,提出历史教育应该培养对国家、民族具有高度认同感、归属感、责任感和使命感的人。抗日战争因其在中华民族伟大复兴过程产生的巨大作用,在高中历史教学中占有重要的地位,无疑是教师进行家国情怀教育的良好素材。另外,由于统编版高中历史教科书对抗日战争史内容的更新,抗日战争史的教育价值也随之丰富起来。因此,面
学位
学位
目的:原发性肝细胞型癌(Hepatocellular carcinoma,HCC)属于全球发病率最高的恶性肿瘤之一,由于该疾病缺乏敏感有效的早期诊断指标,许多病例错过合适的手术时机。越来越多的研究发现那些一度被忽视的非编码RNA在表观遗传学与转录后修饰中饰演着举足轻重的角色,微小RNA miR-589-5p在HCC中的表达及作用机制尚不明确。因此,本实验针对miR-589-5p及其目标基因对HCC
混流式水轮机组结构复杂,引起机组振动的因素包括水力、机械、电气等多个方面,各种因素相互耦合。机组运行工况多变,当其工作在非最优设计工况区时,振动会更加剧烈。长时间在该区域内运行将危及机组安全稳定,有损机组寿命,降低经济效益。目前,划分机组运行区,避开恶劣工况,成为业内普遍采取的应对措施。本文以T水电站1号机组为对象,先基于经典方法,实现了机组运行区划分。然后总结了经典方法存在的不足,并进行了以下研
随着最近几年我国在互联网以及新媒体平台经济领域的快速发展,充分发挥和利用了互联网特有的信息传递高效性及潜在用户数据分析等特点的共享经济,可以做到将各类商品以低价和便利的形式出租给有需求的群体,实现资源共享的最大化,这其中的代表——互联网共享汽车的商业模式的出现为人们提供新的便捷出行方式的同时,也产生了诸多法律问题。为出行提供了更多选择,同时也符合低碳环保理念的共享汽车,自投入运营以来就受到了用户的
商帮的顶盛繁荣在清朝,著名的商帮有山西商帮、陕西商帮、江右商帮等等,直至民国时期仍然存在。地处西南地区的的重庆,在经济生活中,清至民国这一较长的历史时期也同样活跃着众多的商帮,既有本土的,也有外来的,他们共同创造了独特的重庆商帮文化。“江西填湖广”“湖广填四川”,历史上的巴蜀大移民,吸引了众多的外地商人,他们或是暂居,或是移籍重庆,成为永久性居民。外来移民催生了重庆商帮。重庆商帮的雏形得益于早期的