论文部分内容阅读
微博(Weibo)作为一种基于用户关系的简短信息分享、传播以及获取的广播式社交媒体和网络平台,用户可以通过PC和手机等多种移动终端接入,并以文字、图片、视频等多媒体形式,利用其发布、评论和转发机制实现信息的即时分享与传播互动。近年来,随着移动通讯技术的快速发展和信息获取方式移动化趋势的日益增强,微博平台的用户群体数量迅速扩张,内容建设日益丰富,传播速度呈几何增长,不仅给人们带来了一种全新的媒介体验,同时由于其在网民社会生活的各个层面已成为重要的信息发布载体,随着影响力的持续扩大,其在公共舆论方面也彰显出越来越重要的作用,很大程度上已经成为了当下社会热点问题的重要发源地和讨论与扩展的重要载体。尤其对于突发事件,由于微博自身所具有的参与主体普遍化、传播方式立体化、传播速度快捷化等特点,微博舆情的社会效应急剧放大。如何准确把握微博热点话题的演化规律,从而更有效地监督与管理微博舆情、舆论,辅助政府进行管理决策引起了社会各界的广泛关注,同时也成为学术界广泛开展的热点研究问题之一。基于上述背景,本文按照微博话题的获取与预处理、话题发现、热度评估、演化规律分析这一技术路线,重点围绕中文微博热点话题的提取和演化规律开展了相关研究,主要研究工作包括以下四个方面:(1)微博信息的获取与预处理提出了一种基于scrapy分布式数据爬取技术框架的多机并行微博数据获取方法、一种基于SVM算法的微博广告信息过滤方法和无用特殊符号的处理机制,开发了网络爬虫原型系统。通过工程实践,获取了 16万条微博数据,并应用于论文后续研究之中。(2)微博短文本信息的扩展提出了一种基于评论的微博短文本信息扩展策略、基于原微博主题词簇的评论筛选原则和筛选机制,解决了微博文本稀疏特点给文本分析带来的困难。通过实验验证,利用该方法扩展后的微博文本信息,在文本聚类和话题提取方面具有更高的准确率。(3)微博话题提取与热度评估提出了一种基于文本扩展及动态主题模型的微博话题提取方法和基于时间序列的微博热度评估方法,并基于python所提供的gensim框架,通过调用其中的ldaSeqModel方法对DTM动态主题模型和微博话题的热力图进行了实际构建,经与人工标注结果相比较,取得了较好的实验效果。(4)微博热点话题演化规律分析提出了一种微博热点话题演化规律分析方法,该方法基于时间窗构建演化词共现网络,把微博热点话题按演化词类别划分为多个社区。通过时间维度上的社区关联关系构建和关联强度计算来得出热点话题的演化规律。经实例验证,该方法能够较好的挖掘出微博热点话题的演化规律,可一定程度上指导短文本类自媒体的热点话题演化规律分析。