论文部分内容阅读
随着互联网的迅猛发展,从海量数据信息中搜索有效信息已经成为一个重要的问题。目前虽然己经有google、百度这些优秀的通用搜索引擎,但这些搜索引擎对于局域网内信息无法完全、准确的获取,同时信息的实时性也无法保证,所以它们并不能很好的准确检索具有行业背景的信息。目前高校校园网的建设已经比较成熟,校园网内部的公有信息大幅增长,例如本科及研究生的招生及宣传信息。如果使用通用搜索引擎,用户无法获取较为有效的校园网相关信息。因此,为了提高信息检索的效率,本文设计并实现了适用于高校校园网的垂直搜索引擎系统。本文研究并实现了一个应用于高校校园网的垂直搜索引擎系统。首先阐述了通用搜索引擎的工作原理和主要组成部分,进而分析了垂直搜索引擎的实现原理。论文设计并完成了网页抓取模块、预处理模块、索引和查询模块等搜索引擎系统的4个核心模块。其中在网页抓取模块中实现了网页下载以及将已访问过的URL过滤的功能;在预处理模块中比较了两种方案,选择较优的一种进行了网页去噪,同时完成了中文分词、网页去重工作。针对Lucene中文分词效果比较弱这一特点,对中文分词技术进行了研究,针对最大匹配法的缺陷对中文分词进行了改进,提高了搜索引擎的查询准确率;在索引和查询模块中,建立了倒排索引并且使用了优于Lucene中自带的排序算法的PageRank算法进行网页排序。最后对系统进行实验验证。从与百度搜索结果的实验对比中可以看出,本系统查准率较高,能够更好的满足想了解校园网信息的用户的需求。