论文部分内容阅读
如今,互联网成为了人们生活中必不可少的工具之一,人们对于信息的依赖性也越来越强,我们在平常所接触的信息大多数都以文本的形式表现出来。人们面对众多的信息,常常感到无所适从,如何对这些信息进行有效地管理,如何能为用户快速而又准确地找到所需要的信息,成为一个研究的热点。 由于信息量巨大,而各个搜索引擎所采用的检索方法基本都是基于关键字的检索,其所返回的结果也相当多,而作为用户,真正关心和需要的内容往往只占一小部分。如何能够将搜索引擎的查询结果进行分类,使用户可以快速而准确地定位自己所需要的信息,就成为我们最为关心的问题。在众多搜索引擎中,元搜索引擎为用户提供了这样的功能。而聚类算法是元搜索引擎中最重要的一部分。 文本聚类在互联网搜索中具有重要的作用,因此人们对其进行了很多的研究,也产生了许多高效的聚类算法,如K-means,AHC,STC等。但这些算法都没有很好地利用词语的语义信息,近年来,Ulrike Stege与Alex Thomo提出了语义后缀树这一结构,使得后缀树聚类算法的性能得到了提升。 本文主要做了以下几个方面的工作: (1)在语义后缀树的基础上进行改进,得到一种称为语义后缀树组的结构; (2)将该结构应用于传统的后缀树聚类算法中,使算法所产生的后缀树的结点数量,分支数量及最终产生的聚类数量有所减少; (3)在后缀树聚类算法的基础上提出了一种适用于中文web搜索结果的聚类算法,结合汉语语言的特点和语义相似性,提出了短语类的合并策略,提高了该算法的精确度。