垂直搜索引擎在校园网中的研究与应用

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:seaw2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,从海量数据信息中搜索有效信息已经成为一个重要的问题。目前虽然己经有google、百度这些优秀的通用搜索引擎,但这些搜索引擎对于局域网内信息无法完全、准确的获取,同时信息的实时性也无法保证,所以它们并不能很好的准确检索具有行业背景的信息。目前高校校园网的建设已经比较成熟,校园网内部的公有信息大幅增长,例如本科及研究生的招生及宣传信息。如果使用通用搜索引擎,用户无法获取较为有效的校园网相关信息。因此,为了提高信息检索的效率,本文设计并实现了适用于高校校园网的垂直搜索引擎系统。本文研究并实现了一个应用于高校校园网的垂直搜索引擎系统。首先阐述了通用搜索引擎的工作原理和主要组成部分,进而分析了垂直搜索引擎的实现原理。论文设计并完成了网页抓取模块、预处理模块、索引和查询模块等搜索引擎系统的4个核心模块。其中在网页抓取模块中实现了网页下载以及将已访问过的URL过滤的功能;在预处理模块中比较了两种方案,选择较优的一种进行了网页去噪,同时完成了中文分词、网页去重工作。针对Lucene中文分词效果比较弱这一特点,对中文分词技术进行了研究,针对最大匹配法的缺陷对中文分词进行了改进,提高了搜索引擎的查询准确率;在索引和查询模块中,建立了倒排索引并且使用了优于Lucene中自带的排序算法的PageRank算法进行网页排序。最后对系统进行实验验证。从与百度搜索结果的实验对比中可以看出,本系统查准率较高,能够更好的满足想了解校园网信息的用户的需求。
其他文献
雾天时弥漫在空气中的雾气造成了人们的视线模糊,使得景物能见度大幅的降低,给人们的生产和生活带来非常严重的影响。大雾对交通系统的影响更为严重,大雾天气常会是交通事故的隐
在日益自动化的工业印刷生产中,依赖人眼完成的产品表面质量检测越来越多地由视觉系统来完成。多印次印刷过程中可能产生平移和旋转这类刚性变化以及其他噪声干扰,影响建模结
随着人们对网络的依赖程度越来越大,对网络中设备的管理也越来越重要,由于网络中的设备可以分布在网络的不同位置,当一个故障发生在网络的某个位置时,可能对用户的工作和生活
甚高频数据交换系统(VHF Data Exchange System,VDES)是针对水上移动业务领域中的船舶自动识别系统(Automatic Identification System,AIS)加强和升级版系统。由于海面上船舶
图像抠取技术是影视制作和媒体制作的关键技术,在图像编辑和计算机视觉中发挥了重要作用,在电影特效制作、虚拟现实、增强现实、家庭娱乐以及照片处理等方面有着广泛的应用。
海杂波通常是指海洋表面的雷达后向散射回波,严重干扰了雷达对海面目标的检测性能,因此海杂波研究对于雷达系统设计、雷达信号处理和海面目标检测具有非常重要的意义。分形是非
雷达目标检测算法在军用和民用等各领域都具有很高的应用意义,提高检测目标可靠性是雷达的重要作用之一。针对在海杂波背景中弱动目标的检测,传统的方法是从统计意义的角度对
随着矿山信息技术的发展,对监控视频图像质量等监控记录的信息含量要求日益迫切,应急救援对救援通信设备中的视频图像处理技术也有了更高的要求。救援通信系统前端设备在视频图