切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
期刊论文
基于Heritrix的网络爬虫研究与应用
基于Heritrix的网络爬虫研究与应用
来源 :软件导刊 | 被引量 : 0次 | 上传用户:wang8327501
【摘 要】
:
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信
【作 者】
:
刘高军
夏景隆
【机 构】
:
北方工业大学
【出 处】
:
软件导刊
【发表日期】
:
2013年5期
【关键词】
:
网络爬虫
主题搜索引擎
HERITRIX
URL地址去重
BKDRHash算法
Web Crawler
Topic Search Engine
Heritr
【基金项目】
:
基金项目:北京市教委科技发展计划项目(KM201310009001),国家科技支撑项目(2012BAH04F03)
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。
其他文献
《Web技术应用》精品资源共享课实训资源库建设研究与实践
《Web技术应用》课程是计算机应用专业的核心课程,该课程依据企业实际需求和学生就业岗位而设置,重在培养学生运用JSP技术设计开发Web应用系统的动手能力。在分析课程定位与目
期刊
WEB技术
JSP技术
实训资源
课程建设
启发式教学在《操作系统》课程改革中的应用研究
高校计算机专业课《操作系统》课程教学概念抽象难懂,对采用启发式教学法进行了研究,从课堂教学和实验教学两方面进行教学探索,探讨了启发式教学对激发学生的学习兴趣、培养
期刊
启发式教学
操作系统
课程教学
其他学术论文