基于Heritrix的网络爬虫研究与应用

来源 :软件导刊 | 被引量 : 0次 | 上传用户:wang8327501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。
其他文献
《Web技术应用》课程是计算机应用专业的核心课程,该课程依据企业实际需求和学生就业岗位而设置,重在培养学生运用JSP技术设计开发Web应用系统的动手能力。在分析课程定位与目
高校计算机专业课《操作系统》课程教学概念抽象难懂,对采用启发式教学法进行了研究,从课堂教学和实验教学两方面进行教学探索,探讨了启发式教学对激发学生的学习兴趣、培养