论文部分内容阅读
由于Web上海量的信息处于不断的变化中,通用搜索引擎己很难再为用户提供一个准确并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web,并试图服务于所有主题的查询请求。与通用搜索引擎不同,垂直搜索引擎在主题Web信息采集时,通过对网页的主题相关度进行预测和判断,避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在查询的准确率和效率上都有显著的提高。垂直搜索引擎技术正成为越来越热门的课题,而主题Web信息采集技术是垂直搜索引擎的核心技术,该领域的研究具有较高的理论和实现价值。
本文在研究传统的主题Web信息采集技术的基础上,提出了一种新的智能隧道算法。该算法将快速在线Q(λ))学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导专业网络爬虫以最小的时空代价从主题相关度低的区域穿越到达主题相关度高的区域。实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了专业网络爬虫的性能与运行效率。
本研究所做的主要工作包括:
①介绍了垂直搜索引擎的基本原理和相关技术,并对垂直搜索引擎的系统框架进行了研究。
②对主题Web信息采集所涉及到的核心技术包括专业网络爬虫、相关度计算、爬行策略等进行了研究。
③在研究现有的隧道技术和快速在线Q(λ)学习算法基础上,提出了一个智能隧道模型,并在该模型基础上设计了一个智能隧道算法。该算法与普通隧道算法相比,有效地降低了时空复杂度,提高了专业网络爬虫的性能与运行效率。
④研究了现有的Web信息采集相关开源项目,并在Heritrix框架的基础上定制开发,实现了基于智能隧道的主题Web信息采集原型系统。以“旅游景点”为主题,通过实验分析验证了基于智能隧道主题信息采集技术的有效性和准确性。