主题微博爬虫的设计与实现

被引量 : 0次 | 上传用户:sun89ok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的高速发展使得互联网逐渐渗透到人们的日常生活中,对社会的方方面面产生了深远的影响。权威机构的调查显示,互联网用户数量每年都在飞速递增,并且中国的网民数量已经位居全球第一。互联网用户可以在Web上畅所欲言,相互交流,因此互联网已经成为虚拟公共话语空间,是公众都能参与的新兴公共舆论平台。随着互联网的迅速发展,微博己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。微博爬虫是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在微博中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务和信息导航。本课题的主要目的是设计面向微博的主题爬虫程序,同时需要满足性能和功能要求,考虑到微博爬虫的不同需求,微博爬虫应用宽度搜索技术,对URL进行分析,去重。微博爬虫的实现使用多线程技术,使爬虫具备更好的的抓取性能,并对网络爬虫的连接网络设置连接及读取时间进行设定,避免无限制的等待。为了适应不同需求,微博爬虫采用预先设定的主题,实现对特定主题的爬取,本论文研究了微博爬虫的原理,并实现爬虫的相关功能。
其他文献
数学的学习过程是学生思维训练和提升的过程,学生的数学探究活动都需要依靠思维来完成。这就需要教师在平时的教学中对学生多进行数学思想方法的渗透,使他们逐步养成良好的学
<正> 黎平县距省城贵阳467公里.和松桃县一样,成为贵州省最边远的县份.黎平县总面积4441平方公里,是黔东南州的第一大县.1995年全县的国民生产总值仅3.57亿元,工农业总产值3.
针对最小二乘支持向量机(LSSVM)在建模中的重要参数如何选择问题。提出利用具有随机性、遍历性及规律性的混沌优化算法对LSSVM建模过程中的参数进行优化搜索,为了加快对较大
20世纪一二十年代,中国出现了一大批中国文学史著作。文学史家首先面临的是"文学"和"文学史"概念之界定问题,有的坚持中国传统四部分类法,取"广义"文学说,文学史几近学术史;
交通事业是政府部门提供的公共服务重要组成部分。随着厦门实施跨岛发展战略,岛外的新城建设快速推进,城市人口迅速膨胀,厦门市机动车保有量日益增加,尤其是私家车保有量增长
旅游是一个信息化程度很好的一个行业,它涉及到住宿、娱乐、饮食、交通等很多方面,顺利完成旅游活动与其他行业的信息交流是离不开的。所以作为一次活动组织者和策划者,在沟
<正> 从历史的情况来看,和声的应用,导致了纯律因素的出现及纯律音阶的确立,因此和声与纯律结下了不解之缘。纯律音阶的确立,是从纯律因素的出现起,经历了漫长的岁月,经过了
油田进入开发中后期,平面、层间、层内矛盾日益突出,储层油水关系分布复杂,井网井距适应性、工艺措施效果逐渐变差,投入产出效益下降。针对老区开发中后期出现的种种问题,以
德国翻译教育家吉拉里的建构主义翻译教学主张,学生在教师和专业译者的引导下,在真实的环境中,通过合作完成真实的翻译任务,达到对外界知识的主动建构,从而获得职业赋能。介
<正>轻视实践、贬低匠人、看轻蓝领是当今社会生活中一种浮躁的表现.不过情况也在发生变化.打开2012年4月19日的《文汇报》,头版上有一则通讯,说的是一位同济大学建筑学院的