论文部分内容阅读
快速发展的现代互联网在给人们带来大量信息的同时,也不可避免地产生了难以让用户快速获取有效信息的问题。搜索引擎的出现使这一问题得到了一定程度的缓解。它面向任何Web用户,无需用户具有较高的专业检索知识,使用方式也较为简单。搜索引擎已经成为人们获取信息资源的一种主要方式。
然而,现代搜索引擎也存在很多不足。由于目前大部分通用搜索引擎所采用的关键字匹配的检索模式,以及自然语言当中存在的一词多义的现象,造成了搜索结果中包含许多与用户需求无关的信息,降低了用户的检索效率。同时用户在进行信息检索时,一般用1~2个关键词,造成无法准确检索出用户需要的内容,这就是所谓的“短查询”问题。本文希望通过对不同用户的兴趣和背景进行挖掘,利用查询扩展技术,为不同用户提供不同的检索结果。满足其个性化需求。
本文使用网页分类技术对包含某词语的网页进行分类分析,发现了词语具有类别属性,即大部分词语通常只在某一个或若干个类别当中有意义,可以利用这一特点来表示用户的查询目的。
本文主要对以下几个方面进行了研究:
(1)首先介绍了查询扩展这个领域的研究现状、发展方向及研究意义。讨论了与用户兴趣模型有关的技术和概念。
(2)改进了存储用户兴趣的存储结构。增加了关键词的创建时间和最近一次访问时间两个属性,有效地记录了关键词在树形结构中的存在时间和活跃程度。
(3)改进了用户兴趣模型的生成与更新算法。根据关键词的存在时间以及未被用户访问的时间长短,衰减关键词的权值。有效地缓解了过期关键词对用户当前查询的影响。当关键词的权值小于给定阈值时,将其从用户兴趣树中删除,达到对用户兴趣树的维护与更新。很好地模拟了用户的兴趣变化。
(4)根据上面的研究设计并实现了基于用户兴趣的查询扩展系统。通过实验证明本文的系统相比其他系统有一定的优越性。