【摘 要】
:
随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、
论文部分内容阅读
随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、精确化和个性化,Google等通用搜索引擎暴露出诸多问题。如何让用户方便、快捷地找到自己需要的信息,成为一个亟待解决的问题。个性化的垂直搜索引擎能有效地解决了上述问题,正成为人们从互联网上查找信息的一个重要工具。本文首先介绍了搜索引擎的发展历史、垂直搜索和个性化信息服务的研究现状,接着深入探讨了构建搜索引擎的核心技术,包括网页抓取技术、信息抽取技术、中文分词和索引技术等。然后又通过与通用搜索引擎进行对比,简要介绍了构造垂直搜索引擎需要注意的问题。本文在分析垂直搜索特点和研究其关键技术的基础上,主要做了以下工作:(1)提出了一种构建个性化用户兴趣模型的方法。在构建个性化用户兴趣模型的过程中,利用用户兴趣树表示用户兴趣,从用户的日常浏览行为中不断挖掘用户兴趣,并给出了用户兴趣模型的表示和更新机制。(2)提出了一种改进的基于VSM的垂直搜索检索模型。本文在传统的基于VSM的检索模型的基础上,根据垂直搜索的特点,探讨适合垂直搜索引擎的排序算法,并提出了一种改进的基于VSM的垂直搜索检索模型及其性能评测方法。经实验验证,该方法具有较高的查准率和查全率。(3)设计并实现一个用于抓取工作职位信息的网络爬虫系统JobSpider。在本文最后,通过引入一个关于工作职位搜索的实例项目,给出了其基于Agent的系统模型的基本架构,设计并实现一个用于抓取职位信息的网络爬虫系统JobSpider。经实验验证,该爬虫系统的具有较好的性能。
其他文献
ZigBee技术是一种新兴的短距离、低速率无线网络技术,主要用于近距离无线连接。ZigBee技术与其他几种无线通讯技术相比,突出特点是:功耗低、组网能力强、传输距离远、可靠性
随着计算机和网络技术的发展,电子文件的安全问题日益突出。根据传统的信息安全观点,约80%信息泄漏来自内部,为了解决内部人员的泄密问题,必须依托电子文件保密技术完善电子
LOD(Level–of–detail)模型表示法是一种有效的三维实体表达方式。其在计算机图形学、虚拟现实、地理信息系统、医学图像系统等领域有广泛的应用。现今在这些领域所构造和使
灰色系统理论以“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定性系统为研究对象,主要通过对“部分”己知信息的生成和开发提取有价值的信息,实现对系统运行
主题发现与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过博客实时发现并跟踪国内外热点事件,以实时地反馈给用户。由于传
入侵检测技术能够同时检测来自系统外部和内部的攻击,并对检测到的入侵行为作出响应。随着网络技术的发展和网络带宽的迅速增长,入侵检测系统的处理速度由于无法与高速网络带
随着各种医学影像设备的大量涌现,医学图像成为现代临床诊断和医学研究中不可或缺的工具。面对这些海量的医学图像数据,如何有效地组织、管理和检索大规模的医学图像数据,已
随着互联网规模逐渐扩大,域间路由安全问题日益加剧。近年来国内外已经发生多起路由安全事件,对整个互联网也造成很大影响。BGP作为互联网的核心路由协议,其本身却缺乏有效的
作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、文本生成等自然语言处理领域
随着Linux操作系统应用范围不断扩大,其所面临的安全威胁也不断增多,而其中非常重要的一种威胁就是提权攻击。攻击者一旦利用系统中应用程序或内核中存在的提权漏洞成功将用