面向新浪微博的热点事件动态检测与分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:blueuser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的诞生以及各种社交媒体的蓬勃发展,用户将社交网络作为新兴的信息共享平台,并在社交媒体中进行互动和交流,从社交媒体中获取感兴趣信息,关注社会重大事件,表达自身相关态度并发表相关意见。目前,在线社交网络中热点事件的检测研究通常时效性不高,并且对于检测出的事件表达粒度较粗,不便于用户理解热点事件相关信息。在国内,新浪微博是人们感知社会热点事件和参与社会热点事件讨论的重要平台,如何从新浪微博中快速检测事件供用户进行理解,对于用户理性参与事件的讨论、理解事件的发展动态有着重大的意义。为达到动态检测的目的,针对已有研究的相关不足,本文考虑使用分布式数据爬取以达到实时采集微博数据的目的,根据用户的输入出发,从微博中获取输入关键词相关原始微博文本数据集合,使用基于语义相关度和增量聚类的混合检测方法对原始数据集合进行预处理,从而得到事件微博文本集合;根据用户对事件不同了解程度的需求,由用户指定事件演化过程中的相关参数,如时间片大小、拐点子话题个数等,从而达到动态展示事件演化过程的目的。论文的具体工作包括:首先,进行微博文本数据的获取与处理。本文根据搜索关键词爬取初始微博数据集,使用搜索关键词及初始微博数据集进行数据补充爬取。在此基础上,设计合理的策略对噪声数据进行筛选,减少无意义信息的影响。针对微博文本规范性较差的问题,对用户推文中的文本内容进行预处理操作,降低无用数据对接下来事件检测任务以及事件演化分析任务的影响,从而减少事件检测和分析的难度,提高事件检测效率,增强事件演化分析完备性。其次,进行文本事件相关特征抽取。本文在基于预处理之后的微博文本数据集之上,对预处理后的微博文本进行相应的特征抽取及处理工作,这其中包括实体特征抽取、文本语义特征抽取以及关键词权重特征抽取。在实体特征抽取部分,主要包含命名实体的提取、词性标注及句法关系特征分析,用以构建事件元组;以及时间特征的提取与确定,辅助事件元组的构建,为后续事件检测和分析工作做好基础。最后,提出了一种基于Hashtag和语义相关度的增量聚类事件检测方法,实现了基于链式结构的事件分析,并进行了实验验证。首先对原创微博中的Hashtag进行信息熵和事件相关性分析,得到事件相关Hashtag的集合,并使用Hashtag相似性把未知事件与Hashtag进行一对多的精确匹配;再根据特征提取阶段所得到的事件四元组,在Hashtag聚类的基础上进行增量聚类,最终得到事件检测结果。根据事件微博文本集合构建事件链式元组结构,从而得到事件在时间轴上的演化过程。之后,通过实验验证了事件检测和分析方法的有效性。本文是在攻读工程硕士期间,参与课题组与企业合作项目的背景下完成的工作。本文主要工作为社交媒体的事件检测和分析研究,并实现相应系统,可以帮助网络用户充分了解网络上的热点事件,并为热点事件的舆论和演化分析提供理论依据。
其他文献
语音活动检测是一项用于区分语音和非语音的语音分类技术。语音活动检测常常被用作关键词识别系统/语音识别系统的开关,因此语音活动检测的识别率对于后级系统的正常运行至关重要;与此同时,语音活动检测模块越来越多地被用在依赖电池供电的物联网和可穿戴设备上,并且始终处于工作状态(always-on),因此降低语音活动检测功耗的需求愈发强烈。为此,本文设计了一种低功耗语音活动检测模块,通过从算法、电路两方面去优
公交车是城市最重要的公共交通工具之一,也是市民出行主要交通方式之一,在城市运转中具有基础保障作用。相应地,城市公交出行的安全保障是一项重要课题。深入分析城市公交车交通事故的成因,并开展应对措施,对于预防公交车交通事故和提高乘客出行安全具有重要意义。本文基于数据挖掘和关联分析理论,从时空特征和人为因素两个方面,研究常州市连续6年公交车交通事故数据的特征与成因,旨在解析数据间的内在联系及隐藏信息,挖掘
光子晶体(Photonic Crystals,PCs)是一种由两种或多种介电常数不同的介质周期性排列所组成的功能材料,它具有光子禁带的独特光学性质,能够阻止一定波段的光在其中传播。由于这一特性,光子晶体被广泛应用于光波导、显示、传感等领域。对光子晶体进行图案化处理使其形成特定图案或形成特定响应性图案,则能极大的扩大其应用场合。光子晶体的图案化可分为图案化的单组分光子晶体,图案化的多组分光子晶体,以
随着临床医学领域的文献日益增多,循证医学相关人员需要阅读大量医学文献以获取最新研究成果。仅靠专家帮助人工总结证据费时费力,因此从医学文献中自动抽取结构化证据作为摘要,对于加快循证医学实践至关重要。目前存在药物、疾病、基因等多种医学知识图谱,包含大量结构化医学知识。现有的医学文献摘要方法主要以文本驱动,忽略了对医学知识的利用,存在以下问题:(1)医学知识的多源性:大量丰富的医学知识存储在不同领域的多
扇形雕塑结构与高层建筑结构不同,其外形扇底“小”,扇顶“大”,结构的布置极其不规则,受力情况也不利。风荷载的作用可能使得扇形雕塑结构因疲劳损伤的累积导致结构疲劳破坏。因此对扇形雕塑结构的风致疲劳性能研究具有相应的理论意义和工程应用价值。本文以格萨尔王雕像为工程背景,雕塑的背光扇形结构为研究对象,分析了该扇形雕塑结构的疲劳性能,主要研究工作和结论如下:(1)基于格萨尔王雕像背光扇形的建筑方案造型特征
燃煤电厂中经过湿法脱硫工艺处理后的烟气处于湿饱和状态,直接从烟囱排出会遇冷凝结从而产生白雾现象。白雾的存在会降低烟气的抬升高度,使得烟气不能有效的进行扩散,从而造成视觉污染。当环境温度、气压较低时,甚至会产生“石膏雨”或酸雨现象造成环境污染。因此,针对白雾现象的形成及消除进行研究具有重要的社会意义。根据白雾的形成机理,本文研究应用相变原理降低烟气绝对含湿量以达到消除白雾的效果。针对温度范围在45-
伴随着我国居民收入水平的快速提升,国家全面二孩政策以及对基础教育质量要求日益提高,未来我国中小学教育经费投入将持续增多,对高质量、绿色、可持续的中小学建筑需求也日益紧迫。因此,对中小学教学建筑的能耗特点及节能潜力研究很有必要,对我国建设节约型校园、低碳校园具有重要意义。文献研究发现,国内外大量的研究主要聚焦教育建筑中的高等学校教学建筑节能设计,较少研究关注中小学教学建筑的节能设计理论和实践研究,且
气体渗透性是水泥基材料耐久性的重要指标,而孔隙结构是决定渗透性大小的关键因素。系统研究水泥基材料的孔隙结构及气体渗透性,建立基于气体渗透率的混凝土寿命预测模型,对完善结构混凝土耐久性评估体系、提高耐久性设计水平具有重要的理论意义和工程实用价值。本文使用压汞法、氮气吸附法等现代微观测试技术,定量表征了水泥基材料的孔隙结构,并提出了一种利用气体测量多孔材料孔隙率的方法。运用准稳态流动法测试了干燥条件以
绿色建筑是近年来建筑学科发展关注的焦点问题之一,也是国家战略发展的方向。而对绿色建筑的研究,不仅是去寻找应对气候、解决自然条件限制的技术策略,也需要关注容纳经济、文化和历史等多种问题的人文环境。传统建筑中和谐共生、因地制宜的理念显示出古人对环境的朴素认知与有效应对,同时蕴含着绿色建筑关注的人文环境与技术问题。因此,传统建筑的气候适应性策略与营建经验值得深入挖掘。环渤海、长江三角洲和珠江三角洲地区自
粘弹性弛豫时间是表征材料粘弹性响应的重要概念,是建立粘弹性模型的关键之一,与物质的微观原子间相互作用直接相关。因此,如何更好地预测和描述粘弹性弛豫时间,对粘弹性计算模型的建立具有重要的意义。目前粘弹性弛豫时间三种表征方法中,粘弹性特征弛豫时间最符合表征材料粘弹性响应的概念,但需要计算不同频率下物质的储能模量和损耗模量,计算过程复杂。Maxwell弛豫时间计算简单,但其描述受到Maxwell模型的限