微博热点话题发现与演化规律研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:myhululu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博(Weibo)作为一种基于用户关系的简短信息分享、传播以及获取的广播式社交媒体和网络平台,用户可以通过PC和手机等多种移动终端接入,并以文字、图片、视频等多媒体形式,利用其发布、评论和转发机制实现信息的即时分享与传播互动。近年来,随着移动通讯技术的快速发展和信息获取方式移动化趋势的日益增强,微博平台的用户群体数量迅速扩张,内容建设日益丰富,传播速度呈几何增长,不仅给人们带来了一种全新的媒介体验,同时由于其在网民社会生活的各个层面已成为重要的信息发布载体,随着影响力的持续扩大,其在公共舆论方面也彰显出越来越重要的作用,很大程度上已经成为了当下社会热点问题的重要发源地和讨论与扩展的重要载体。尤其对于突发事件,由于微博自身所具有的参与主体普遍化、传播方式立体化、传播速度快捷化等特点,微博舆情的社会效应急剧放大。如何准确把握微博热点话题的演化规律,从而更有效地监督与管理微博舆情、舆论,辅助政府进行管理决策引起了社会各界的广泛关注,同时也成为学术界广泛开展的热点研究问题之一。基于上述背景,本文按照微博话题的获取与预处理、话题发现、热度评估、演化规律分析这一技术路线,重点围绕中文微博热点话题的提取和演化规律开展了相关研究,主要研究工作包括以下四个方面:(1)微博信息的获取与预处理提出了一种基于scrapy分布式数据爬取技术框架的多机并行微博数据获取方法、一种基于SVM算法的微博广告信息过滤方法和无用特殊符号的处理机制,开发了网络爬虫原型系统。通过工程实践,获取了 16万条微博数据,并应用于论文后续研究之中。(2)微博短文本信息的扩展提出了一种基于评论的微博短文本信息扩展策略、基于原微博主题词簇的评论筛选原则和筛选机制,解决了微博文本稀疏特点给文本分析带来的困难。通过实验验证,利用该方法扩展后的微博文本信息,在文本聚类和话题提取方面具有更高的准确率。(3)微博话题提取与热度评估提出了一种基于文本扩展及动态主题模型的微博话题提取方法和基于时间序列的微博热度评估方法,并基于python所提供的gensim框架,通过调用其中的ldaSeqModel方法对DTM动态主题模型和微博话题的热力图进行了实际构建,经与人工标注结果相比较,取得了较好的实验效果。(4)微博热点话题演化规律分析提出了一种微博热点话题演化规律分析方法,该方法基于时间窗构建演化词共现网络,把微博热点话题按演化词类别划分为多个社区。通过时间维度上的社区关联关系构建和关联强度计算来得出热点话题的演化规律。经实例验证,该方法能够较好的挖掘出微博热点话题的演化规律,可一定程度上指导短文本类自媒体的热点话题演化规律分析。
其他文献
石墨烯是一种由碳原子构成的单层片状结构的新材料。2004年,英国曼彻斯特大学的两位科学家安德烈·杰姆和克斯特亚·诺沃消洛夫发现他们能用一种非常简单的方法得到
让Windows XP关机更快速  使用Windows XP的时间长了,在系统中安装和运行的软件越来越多,系统的运行速度逐渐降低。当执行关机操作时(包括点击“开始/关闭计算机”、或者运行命令“shutdown-s—t 0”,或者利用各种常用软件提供的自动关机功能等),系统的反应速度有时很迟钝,往往长时间出现“Windows正在关闭”画面,甚至系统停止响应,只有按下机箱上的开机键强制关机,时间长了
随着纯电动汽车产销量和保有量的飞速攀升,提高纯电动汽车的安全性能也成为了很热门的研究方向。纯电动汽车的安全性主要指的是碰撞安全性,由于汽车乘员舱侧面车身强度相对于
随着猪粪作为一种富含有机质和营养元素的有机肥料在农业中的广泛应用,施用猪粪导致土壤中重金属、抗生素、抗生素抗性基因等有害成分增加的现实也越来越受到社会的重视。而