论文部分内容阅读
随着互联网的快速发展,信息的发布与传播变得越来越快捷,网络上的信息量也积累到了非常庞大的规模,这使得检索信息变得日益困难,所幸搜索引擎能够为用户提供快速的信息检索,它被人越来越多的使用并成为日常生活中的一种依赖。网络爬虫作为搜索引擎的抓取模块,负责搜集互联网上的网页,爬虫系统的爬行性能和搜集到的网页质量很大程度上影响了搜索引擎的服务质量,所以爬虫是搜索引擎的重要组成部分,值得研究和改进。近年来,受制于网络的规模,通用爬虫的负担越来越繁重,而专注于特定领域的主题爬虫搜集的信息更有针对性,并且运行效率较高,于是得到了广泛的重视和深入的研究。主题爬虫为爬虫领域开辟了一条新的路径,具有很高的研究价值和实用价值,本文围绕设计和实现一个主题爬虫所涉及的各项技术展开讨论,所做的主要工作和研究成果包括:(1)提出和实现了一种改进的搜索策略,主要是通过动态调整阈值,使爬虫的搜索过程更有灵活性,可以有效解决主题爬虫领域的隧道现象,平衡主题爬虫的搜集覆盖率和准确率,使两者都达到较高的水平;(2)提出和实现了一种改进的相关度计算模型,主要是通过合理压缩空间向量的维度,在不丢失准确度的情况下,减少了计算的时间复杂度,可以有效提高计算速度;(3)研究了当数据规模很大时,爬虫系统如何实现URL的消重和网页的存储,前者主要是通过将索引建立成B-树的结构,从而有效的压缩了维护URL队列所需的空间,后者主要是放弃数据库的存储方式,将网页按照一定的存储格式,以文件方式予以保存,有利于数据的安全和维护;(4)研究了涉及主题爬虫领域的各项技术问题,主要有网页的获取,网页内容的分析,中文分词和搜索策略等,综合上述各方面的理论,设计和实现了个主题爬虫系统,利用该系统对搜索策略和相关度计算的改进方法进行了实验测试,数据显示上述改进方法效果良好。