论文部分内容阅读
近年来随着互联网技术的发展,Web信息量飞速增长,如何从大量信息中迅速有效地检索出所需的信息成为了人们关注的问题,搜索引擎也因此走入了人们的生活。如今,搜索引擎的功能日益强大,抓取的信息也日益增多,但用户却似乎越来越难检索到自己所需要的信息。归结原因主要有两点,一是由于关键词所能够反映的信息量是有限的,用户无法通过简单的几个查询词准确的表达自己的查询意图。二是由于目前典型的搜索引擎返回的是一个处理后的结果列表,内容非常杂乱和庞大,由于缺少反映搜索结果内部关联的信息,用户很难从迅速识别出自己需要的信息。针对以上两点主要问题,本文主要研究了用户查询扩展技术和搜索结果自动聚类技术。在查询扩展技术中引入语义计算是一个重要研究方向。现有的解决方法普遍存在引入无关词、缺少领域知识以及筛选函数不恰当的问题。本文提出了一种结合了领域知识选取与局部反馈的语义关联树的查询扩展模型,从语义的角度进行查询扩展,改进了扩展词筛选函数、增加了阈值限定,有效控制了噪音。在聚类算法上,STC方法是一种公认较好的用于Web搜索结果聚类的算法。SHOC、Lingo算法将向量空间模型(VSD Model)与后缀树文档表示模型结合起来,既考虑了词的位置信息,又考虑词的统计特性,在STC的基础上有了较好的发展。然而,现有的聚类算法普遍存在聚类标签可读性不强,信息量不足,区分性较差等问题,且聚类结果不能充分反映用户兴趣。本文提出了一种改进的Web检索结果聚类推荐算法CQIG,构建后缀数组找到完整短语,结合矩阵奇异值分解产生候选聚类标签,选取更为有效的特征改进标签评分公式和聚类得分公式。同时采用了基本类合并技术,产生了更具表述性、区分性和可读性的聚类结果并有效控制了重叠聚类。本文方法同时还加强了对于中文检索的处理效果。本文建立了Web搜索结果聚类推荐引擎,采用了carrot~2平台作为基础框架,通过各种大型搜索引擎API获得源数据,通过网页清洗,分词,提取特征项,建立VSM,构造CQIG、STC及Lingo进行聚类,聚类后把聚类结果展现给用户。