微博数据通用抓取算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：gaoaiping0322

【摘要】

：

目前常用的网络爬虫和基于微博 API 抓取数据的算法很难满足舆情系统对微博数据的需求。为此，提出一种模拟浏览器登录微博抓取网页数据的算法，以方便地获取任意微博用户网页上

【作者】

：

卢体广刘新刘任任

【机构】

：

湘潭大学信息工程学院智能计算与信息处理教育部重点实验室

【出处】

：

计算机工程

【发表日期】

：

2014年5期

【关键词】

：

微博数据模拟登录用户网络用户影响力网络舆情优先队列 microblogging data analog login user network user

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前常用的网络爬虫和基于微博 API 抓取数据的算法很难满足舆情系统对微博数据的需求。为此，提出一种模拟浏览器登录微博抓取网页数据的算法，以方便地获取任意微博用户网页上的所有数据。通过微博用户之间的关系构建用户网络，并通过该网络发现新用户。为获取微博上有质量的数据，建立一个完整的数学模型，根据用户的发帖数、发帖频率、粉丝数、转发数、评论数等因素来计算用户影响力，以影响力为主要因子构建优先队列，使得影响力越大的用户数据采集频率越高，同时计算时间间隔以兼顾非活跃用户的数据获取。实验结果表明，该算法具有通用性强

其他文献

古代哲学气说概论（下）

宇宙中出现了形形色色的事物.故说:"万物掺落,枝茎枝叶,青葱苓茏,萑*-炫煌,驪飞蠕动,羐行哙息,可切循把握而有数量."但同时又形成了广袤无垠的空间,其中存在着运行不息的气,"

期刊

精气运动气化古代哲学气说

国外新农村建设的经验与启示

建设社会主义新农村，我国的重大战略决策和部署，是对新形势下“三农”各种指导思想的进一步深化、发展和提升。而建设新型农村，是世界上所有国家或地区实现由传统社会向现代社会转型过程中的一个必经阶段。一些发达国家和地区，如欧盟、日本，已经踏上或经历了这个历史阶段，发展中国家也必须完成这一历史任务。通过各种各样的新农村运动，这些国家的农村改革和建设取得了可观的成就，不仅提高了农民的物质文化水平和质量，而且缩

期刊

新农村建设建设社会主义新农村经验国外社会转型过程发达国家历史任务发展中国家

腰麻联合硬膜外麻醉在盆腔手术中的应用观察

腰麻联合硬膜外麻醉(CSEA)是近年来发展起来的一种新麻醉方法，它兼有腰麻起效迅速、阻滞完善和连续性硬膜外麻醉不受时间限制、术后可硬膜外镇痛等优点。我院自1999年6月至今

期刊

腰麻联合硬膜外麻醉CSEA麻醉方法盆腔手术应用

用于求解单机调度问题的混合禁忌搜索算法

针对工件不同释放时间和实际加工时间之和的学习效应情况，研究单机调度总完工时间最小化问题。根据问题的NP—hard特性，证明2个优先规则，结合禁忌搜索算法与优先规则，提出一个混

期刊

调度学习效应禁忌搜索释放时间优先规则scheduling learning effect Tabu Search （TS） release

促进独立审计独立性的因素分析

根据经济人假设，独立审计主体只具有相对独立性。促进独立审计的独立性的因素包括外部因素和内部因素，市场与政府协同作用促进独立审计主体提高独立性。