论文部分内容阅读
Internet的迅速发展使其成为当今世界上最大的信息库,并日益成为人们获取所需资源的主要来源,然而其巨大的信息量以及纷繁芜杂的内容与人们有目的的利用信息形成了很大的矛盾。与此同时,传统的综合性搜索引擎要采集的信息以及构建索引查询的内容不断扩大,由于其局限于试图索引全部Web并试图服务于所有主题的查询请求,导致了通用搜索引擎很难再为用户提供一个全面并且更新及时的信息搜索服务,所以如何快速、准确地从浩瀚的信息资源中找到有用的信息成为网络用户面临的一个紧要问题。用户迫切需要一个数据分类细致、精确、全面、更新及时的搜索引擎来获取主题资源信息。由于面向主题的搜索引擎只覆盖与特定主题相关的Web区域,这样搜索可以更深,周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求,所以成为目前研究的热点。而Web挖掘作为知识挖掘新的研究内容,由于自身在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大借鉴作用。所以搜索引擎通过应用Web挖掘技术,可以增强信息处理能力,使得信息检索的能力满足信息化社会的发展需要。
本文首先从研究的角度对搜索引擎的产生及其发展历程进行分析,对目前综合性通用搜索引擎的工作原理及其现状进行讨论,从而引出了传统搜索引擎面临的巨大挑战。在此基础上对主题搜索引擎的支撑技术进行充分研究,对于导向词的使用、网页评分、权威网页和中心网页的提取以及超链接文本分析等方面充分理解,最终确定论文研究的主要方向为如何把’WEB挖掘领域中的研究成果应用于主题搜索引擎的设计和实现中。本文的研究重点为以下四个方面:
1.Topical-Crawler信息采集:抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题。提出了基于主题策略改进网页爬行器的方法:把主题词及相关权值、首页相关度以及基于链接的评价方法综合应用于爬行器的改进,提高搜索引擎资源获取的主题相关度。
2.网页文本分类:采用传统的向量空间模型表示文本,采用基于词典双向最大匹配法进行自动分词,提高文本特征抽取方面准确度,之后综合分析对比了几种比较成熟的分类学习算法,改进了多项式朴素贝叶斯模型,提高了分类精度。
3.基于Lucene的索引与检索:在Apache开源框架Lucene提供的完整的查询引擎和索引引擎的基础上,完成索引及查询模块,对已分类的网页文本进行索引,提高索引及查询的效率。
4.搜索结果聚类:研究聚类算法在搜索结果聚类的应用特性:重叠聚类、短语表示以及简明的类定义。在进行检索时,对已检索到的结果进行聚类分析,根据文档与用户查询的相关性聚合成相应类别,通过简明的类定义,提高查询的准确性和实用性。