论文部分内容阅读
互联网的信息量呈爆炸趋势增长,增强了人们对搜索技术的依赖性。搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。但随着网络技术的飞速发展,获取更加准确、更加详细、更加深层的专业信息,成为对搜索引擎提出的新要求。因此,面向主题的垂直搜索引擎系统应运而生。
本文主要的研究工作分为两个部分:第一部分通过理论研究分析,揭示垂直搜索引擎的现实意义;第二部分通过对垂直搜索擎的核心技术进行剖析,结合对奥运信息的需求,设计并实现一个垂直搜索引擎的原型系统。主要内容为:
(1)详细介绍了垂直搜索引擎技术的研究意义,国内外发展现状、基本原理。提出了目前搜索引擎所面临的问题以及解决问题的途径,即本文所研究的方向:垂直搜索引擎。通过和搜索引擎在信息服务和关键技术上的比较分析,指出垂直搜索引擎的巨大优势。重点论述了垂直搜索引擎的基本原理和工作流程。
(2)垂直搜索引擎的关键问题研究,重点论述垂直搜索引擎设计与实现时的关键问题:信息采集技术,信息预处理技术等。
作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,搜索出特定主题领域内的相关网页。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。
(3)具有垂直搜索引擎功能的奥运信息系统的设计与实现,根据前文的理论分析和当前搜索引擎技术的发展现状,按照软件工程的方法,研究并实现奥运信息搜索引擎的原型系统。设计过程重点论述了系统主要功能模块和关键技术的实现。