微博舆情系统中数据采集技术研究

被引量 : 0次 | 上传用户:a563241195
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的成熟和移动互联网的快速发展,越来越多的信息都被发布在网络上,而且这种方式也逐渐的被大众接受。网络上的信息在一定程度上能反映民众意向,但同时一些蛊惑性的话也能煽动网民,因此网络舆论在当下社会中越来越受关注。为发展健康的网络环境,有关政府部门需要对网络舆情进行有效预测、发现和疏通引导。而在网络舆情领域中,微博舆情备受关注,因为越来越多的舆情事件都是首先在微博上曝光,然后在微博上传播、讨论从而形成舆情事件。从各级政府、企事业单位开通微博的动作就能看出微博在网络中的地位。本文针对微博舆情系统中数据采集存在的若干问题进行分析与研究,提出了通过模拟登录采集网页,然后辅以优先队列采来集微博上更有影响力的微博。本文主要完成以下工作:(1)就目前常用三种方法进行分析:微博推送、基于微博API和网络爬虫。前两种采集方法很难满足舆情系统对微博数据在规模和实时性等方面的需求,最后一种则不容易采集到有用信息。为此,本文提出模拟浏览器登录微博抓取网页数据的方法,以方便地获取任意微博用户网页上的数据,并且能避开前两种方法在数据采集速度上的限制。(2)考虑到微博上用户数目庞大,采集数据时会漏掉很多用户。本文提出构建微博用户网络的方法来解决该问题。首先,将每个微博用户抽象为一个点,用户和用户之间的粉丝、关注、转发、评论等关系抽象为边,将每种关系的量化值作为该边上对应关系权值。通过点和边加入,就能构建出一个巨大的微博用户网络,这样就能通过这个网络不断的发现新微博用户,进而能保证数据的完整性。(3)为实现高效的微博数据采集,本文采用优先队列算法。高效采集数据是指在面对大量的数据时,我们分层次的采集这些数据,即先采集影响力大的用户所发的微博,然后才是影响力较小的。为实现该功能,本文设计了优先级的计算模型。综合新浪微博对影响力用户的定义和各种实际情况,筛选出粉丝数、关注数、活跃度、传播力和时间戳这五个因子。以影响力为主要因子构建优先队列,使得影响力越大的用户数据采集频率越高,同时还通过计算时间间隔兼顾非活跃用户的数据获取。并且,在获得网页后,由于微博的网页结构单一,本文设计了相应的去噪、解析方法,即通过固定特征值直接定位有效信息,实现高效解析。对得到的数据,对其进行简单的数据分析,得到一些简单有意思的信息。实验结果表明该方法具有通用性强、完全无需人工干预、获取信息的质量高、速度快等优点。
其他文献
国际上税务会计的运行模式主要有美英模式、法德模式及日本模式等,这些模式各自产生的社会背景不同,其优缺点也有明显差异。本文根据我国具体的社会经济法律环境,借鉴国际经
在传统的公司财务理论中,我们普遍认为的是公司所有的普通股都是平等的,每个股东手中所拥有的每股股权都是一样的,每股所代表的权利和收益是一样的。但随着对证券市场的研究
白象山铁矿在主、副、风井贯通后,存在地温高、通风距离长、多水平同时施工、点多面广、供风量不足、通风系统不稳定等难题。通过合理地构筑通风设施,进行有效地增阻调整风量
小区的公共收益属于全体业主,但目前由于多数业主对小区公共收益概念模糊,相关法律法规不完善,导致小区公共收益的分配、管理和使用等方面存在诸多问题,业主的合法权益得不到有效
<正>新时代背景下,企业创新的组织形式从单个企业转向以多企业为特征的企业集群和网络创新系统。产业集群研究的兴起和对其内部网络属性的
<正>一、企业国际化阶段的理论学说企业国际化阶段有多种理论学说,有六阶段论、四阶段论、三阶段论等。1.罗宾逊的六阶段论。美国理查德·罗宾逊于上世纪80年代中期提出了六
<正>席卷全球的金融危机风暴不但对金融市场和经济发展造成重创,也冲击着现有的金融和经济体制以及隐含在其中的价值观念。从政府到民众,从投资人到管理者,越来越多的有识之
内部控制信息披露具有改善公司经营管理、辅助投资者决策、促进资本市场有效运行等作用。中小板上市公司作为国民经济的重要力量,对其内部控制信息披露现状的研究具有重要的
覆盖型岩溶地区,由于采矿排水、供水抽汲地下水,当下降的水位低于基岩面时导致岩溶塌陷、开裂和沉陷,统称岩溶塌陷。野外实验进一步证明,地下水位高于基岩面时很少塌陷,当低
胆囊癌的首选治疗方法仍然是手术切除。对病理学检查结果证实的T1a期胆囊癌均推荐实施肝十二指肠韧带骨骼化清扫,以确保手术治疗可以最大限度地达到根治目标。对T1b期胆囊癌