论文部分内容阅读
随着互联网的成熟和移动互联网的快速发展,越来越多的信息都被发布在网络上,而且这种方式也逐渐的被大众接受。网络上的信息在一定程度上能反映民众意向,但同时一些蛊惑性的话也能煽动网民,因此网络舆论在当下社会中越来越受关注。为发展健康的网络环境,有关政府部门需要对网络舆情进行有效预测、发现和疏通引导。而在网络舆情领域中,微博舆情备受关注,因为越来越多的舆情事件都是首先在微博上曝光,然后在微博上传播、讨论从而形成舆情事件。从各级政府、企事业单位开通微博的动作就能看出微博在网络中的地位。本文针对微博舆情系统中数据采集存在的若干问题进行分析与研究,提出了通过模拟登录采集网页,然后辅以优先队列采来集微博上更有影响力的微博。本文主要完成以下工作:(1)就目前常用三种方法进行分析:微博推送、基于微博API和网络爬虫。前两种采集方法很难满足舆情系统对微博数据在规模和实时性等方面的需求,最后一种则不容易采集到有用信息。为此,本文提出模拟浏览器登录微博抓取网页数据的方法,以方便地获取任意微博用户网页上的数据,并且能避开前两种方法在数据采集速度上的限制。(2)考虑到微博上用户数目庞大,采集数据时会漏掉很多用户。本文提出构建微博用户网络的方法来解决该问题。首先,将每个微博用户抽象为一个点,用户和用户之间的粉丝、关注、转发、评论等关系抽象为边,将每种关系的量化值作为该边上对应关系权值。通过点和边加入,就能构建出一个巨大的微博用户网络,这样就能通过这个网络不断的发现新微博用户,进而能保证数据的完整性。(3)为实现高效的微博数据采集,本文采用优先队列算法。高效采集数据是指在面对大量的数据时,我们分层次的采集这些数据,即先采集影响力大的用户所发的微博,然后才是影响力较小的。为实现该功能,本文设计了优先级的计算模型。综合新浪微博对影响力用户的定义和各种实际情况,筛选出粉丝数、关注数、活跃度、传播力和时间戳这五个因子。以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时还通过计算时间间隔兼顾非活跃用户的数据获取。并且,在获得网页后,由于微博的网页结构单一,本文设计了相应的去噪、解析方法,即通过固定特征值直接定位有效信息,实现高效解析。对得到的数据,对其进行简单的数据分析,得到一些简单有意思的信息。实验结果表明该方法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。