基于窗口比较的网站信息增量爬取方法

来源 :网络新媒体技术 | 被引量 : 0次 | 上传用户：ruifanglong198526

【摘要】

：

目前在网站信息增量爬取中，采用布隆过滤器去重是比较有效的方法，但随着存人的元素数量增加，误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法，按照

【作者】

：

刘学麻朴方尤佳莉脱立恒

【机构】

：

中国科学院声学研究所国家网络新媒体工程技术研究中心,中国科学院大学

【出处】

：

网络新媒体技术

【发表日期】

：

2017年4期

【关键词】

：

增量爬取爬取效率 HASH 布隆过滤器 incremental crawling crawling efficiency Hash Bloom filt

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前在网站信息增量爬取中，采用布隆过滤器去重是比较有效的方法，但随着存人的元素数量增加，误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法，按照网站数据呈现顺序一次性爬取有限长度的数据，并按照网站数据的呈现顺序放人数据队列，在数据队列末端设定比较窗口，通过检查比较窗口内的数据与已爬取数据的重复度决定是否停止数据爬取。实验表明，针对增量爬取未严格按照时间排序网站信息时，本方法降低了爬取损耗。

其他文献

谈素质教育在政治教学中的实施

思想政治课是学校德育的一条重要渠道和基本环节.它对于引导学生确立坚定正确的政治方向,培养社会主义道德品质,全面提高学生素质起着主导作用.

期刊

素质教育政治教学德育教学目标教学方法特殊教育

上海交大EMBA学员油田“圆梦”

期刊

EMBA学员人才培训中心民营企业集团国企发展胜利文化局党委副书记研究生教学科技展览石

数码摄像技术在石油钻杆磁粉探伤中的应用

简要介绍以数码摄像机作为图像数据采集及信号转换工具的磁粉探伤自动化监控系统,运用通用串行总线USB实现数码相机与计算机之间的数字图像传输,用专用的iLink电缆连接数码摄

期刊

数码摄像钻杆磁粉探伤

“以痛为腧”注射舒筋灵治疗闪腰

我们按照以痛为腧的取穴方法,运用天津市人民制药厂生产的舒筋灵注射液穴位注射治疗闪腰,共治66例患者,一次治愈者达58例,其余病例两次获愈。现简介如下: 嘱患者做腰部屈伸侧

期刊

让金融活水流向小微企业

11月7日，李克强总理在全国小微企业金融服务电视电话会议上指出：小微活，就业旺，经济兴。金融支持是激发小微企业活力、助推小微企业成长壮大的重要力量。要进一步深化金融体制改

期刊

企业活力金融服务水流电视电话会议金融体制改革金融资源配置市场体系决定性作用

聋校创新教育初探

创新教育是以培养人的创新精神和创新能力为基本价值取向的教育.创新教育为聋教育发展开辟了广阔的天地.聋校应积极创造条件,培育聋生创新萌芽;发展创造思维,提高聋生创新能

期刊

聋校创新教育教学模式

世界各国中小学课程改革的主要趋势

期刊

世界中小学课程改革发展趋势选修课人才培养模式建构主义

基于密文云存储的媒资系统的设计与实现

提出一个基于密文云存储的媒资系统设计方案，通过对应用透明的数据加解密技术保护了敏感数据文件在终端、传输和云端安全性，同时向用户提供了文件审批、文件自动归档等功能。实

期刊

云存储透明加解密媒资系统自动归档数据安全Cloud storage Transparent encryption Media asset syst

浅谈聋生自主学习的引导方法

上海市特级教师钱梦龙认为,教学过程不仅是一个基于一般认识规律的特殊认识过程(它的特殊性主要表现在教师指导下认识过程的高度浓缩和简约),而且还应该是一个使学生获得充分

期刊

聋生自主学习引导方法学习兴趣探究式环境课外活动实验

胜利油田车载式膜制氮注氮设备的研制

氮气已被广泛的应用于油气田的开采、完井及修井等领域,但是目前油田使用的成套制氮注氮设备,主要依靠进口,价格昂贵,配件供应及维修服务困难,严重制约了氮气工艺在油田生产

期刊

膜分离制氮注氮设备研制

基于窗口比较的网站信息增量爬取方法

与本文相关的学术论文