社交网络数据获取技术与实现

被引量 : 0次 | 上传用户:shahua001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和信息技术的快速发展,互联网上的信息空前丰富。Web按其信息蕴藏的深度可分为Surface Web和Deep Web,Deep Web数据资源包括需要通过查询接口查询才能生成的页面和只有登录后才可查看的专有网络信息。搜索引擎的出现,一定程度上解决了查询信息的需求,但是传统搜索引擎无法索引到这些Deep Web页面。如今快速兴起的社交网站,吸引了大量的活跃网络用户,其Web信息资源更丰富并且具有很高的价值。本文分析了针对社交网络信息数据获取的框架,设计了抓取Twitter、Facebook和人人网的爬虫,并且给出了爬虫管理和数据展示的设计与实现。具体研究工作如下:1.研究了Deep Web爬虫的框架和模块设计。Deep Web包括可搜索数据库和专有网络。针对可搜索数据库,爬虫首先要发现数据源,然后对查询接口归约,再把抓取结果聚合。针对专有网络,爬虫首先要获得网站授权,然后抓取页面,再对页面进行分析,最后把结果聚合。2.设计实现了Twitter、Facebook和人人网的爬虫。Twitter爬虫的数据获取策略是首先通过OAuth认证获取Access Token,然后调用Twitter API增量抓取用户Twitter数据。Facebook爬虫,抓取策略是使用HtmlUnit登录,获得一个Access Token,然后调用Facebook Graph API增量抓取用户的新鲜事,解析返回的JSON数据并且统一格式。人人网爬虫抓取策略是使用HtmlUnit构造浏览器WebClient登录,并保存Cookie,然后使用WebClient增量抓取用户页面,解析状态和日志。经过功能测试和大规模性能测试,爬虫能够满足实际工作需要,具有稳定性和适应性。3.研究了爬虫管理系统的实现。设计了一个管理控制台和部署在每个抓取机器上的守护程序,他们通过互相通信来实现管理控制爬虫节点的任务分配与负载平衡。守护程序监视爬虫节点运行并解析普通爬虫抓取的数据入库。经过实验测试分析,管理系统能够准确完成设计的功能,并且在大规模通信和数据情况下,性能良好。4.研究了利用Flash的ActionScript2.0语言实现信息可视化效果。完成了抓取数据的可视化展示的动态饼状图。
其他文献
植物油是居民生活的必需品,油脂油料产业的发展与粮食生产、粮食安全,以及居民生活都息息相关。湖北作为我国油菜籽生产的第一大省,其油菜籽产量的高低将关系到我国油菜产业
随着农产品市场营销理论和实践的发展,农产品渠道联盟日益引起了理论界和实践界的关注,已成为农产品营销渠道发展的一个重要方向。农产品渠道联盟是指在竞争、合作的市场环境
世界各国经济发展实践表明,一个地区的产业结构状况对这个地区经济发展有着至关重要的影响。经济发展的过程可以说是一个动态的产业结构优化调整的过程。本文从新疆陆桥经济
政治色彩浓厚的“典型性”意义的影像文化,一度营造了中国社会“主旋律”影像文化的既成背景。不过在时代变迁中,这种“主旋律”影像艺术也逐步呈现出一些局限性与保守性。而
"物的城镇化"与"人的城镇化"是新型城镇化的两个重要方面。"物的城镇化"是人的城镇化的重要基础,人的城镇化是物的城镇化的终极目标。新型城镇化之"新"在于强调人本、公正与
地下建筑是被人们开发利用并具有某种功能的地下空间。1991年在东京召开的地下空间学术会议中明确指出“21世纪是人类开发利用地下空间的世纪”。与地面建筑不同的是,地下建
企业发展模式的选择 ,关系到企业的发展目标和归宿。我国制造企业究竟要不要从“橄榄型”转变为“哑铃型” ,这是一个十分重要的问题。从理论和实践上讲 ,“哑铃型”企业和“
在全球保护环境和低碳理念的背景下,建筑业领域绿色建筑备受社会关注。在中国,绿色建筑的推行、认证已经实施多年,对绿色建筑的研究大部分站在全社会角度考虑其成本、效益及
针对耕地数量减少、质量降低等问题,为了保证国家粮食安全、农产品质量安全和社会经济可持续发展,加强干旱区绿洲耕地质量评价研究,对于我国干旱区绿洲耕地质量的建设和提高
随着电源技术的发展,开关电源渗透于产业的各个方面成为一个十分活跃的领域,各种新技术不断孕育而生,比如软开关。目前常规变换器开关管工作在硬开关方式下,损耗大,频率不高,