论文部分内容阅读
当今时代,随着互联网的飞速发展,越来越多的用户在社交媒体上随时发表自己的看法,观点,身边事件。社交媒体被作为网络信息的一大数据平台,用来随时感知周围发生的事件及发展态势。当灾害事件发生时,大量含有位置信息的文本及媒体数据迅速充斥整个网络。本文探讨灾害类事件应急信息挖掘与分析的一种方法。运用网络爬虫方法获取社交媒体数据,基于此类数据,运用LDA主题模型提取方法,建立灾害类事件主题特征分类模型库,并运用SVM算法从大量的社交媒体数据中快速提取、分类灾害事件,进而通过面向灾害事件的前置后缀特征词与规则相结合的中文地名地址提取方法,结合开源网络地图API的地理编码功能,对灾害事件及应急信息进行地址提取与空间定位;最后,以2017年8月九寨沟地震事件为例,对于地震灾害事件的时间趋势,主题趋势以及不同主题空间定位等,利用统计分析、时间分析和空间分析方法,探寻突发事件的时间趋势和空间分布,为应急响应提供决策支持。 论文主要研究内容包括: (1)通过新浪微博API与网络爬虫方法获取微博灾害类事件,并通过有加权的LDA主题模型提取方法构建灾害类事件主题模型库,运用SVM算法对微博事件进行文本灾害类事件判别与主题分类。 (2)运用人机结合的统计方法,提出灾害事件短文本中的前置后缀特征词与规则相结合的地名地址提取技术。对灾害事件及其相关应急信息进行有效提取。 (3)结合开源网络地图接口的地理编码功能,对模糊的以及带有方位属性的灾害事件进行有效的空间定位。 (4)利用本文所述方法,以“九寨沟地震”事件为例,实现了从微博数据中对典型灾害事件的主题、时间与空间信息进行分类、定位及统计分析。