后缀树在web搜索结果聚类中的研究与应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:freedomo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,互联网成为了人们生活中必不可少的工具之一,人们对于信息的依赖性也越来越强,我们在平常所接触的信息大多数都以文本的形式表现出来。人们面对众多的信息,常常感到无所适从,如何对这些信息进行有效地管理,如何能为用户快速而又准确地找到所需要的信息,成为一个研究的热点。  由于信息量巨大,而各个搜索引擎所采用的检索方法基本都是基于关键字的检索,其所返回的结果也相当多,而作为用户,真正关心和需要的内容往往只占一小部分。如何能够将搜索引擎的查询结果进行分类,使用户可以快速而准确地定位自己所需要的信息,就成为我们最为关心的问题。在众多搜索引擎中,元搜索引擎为用户提供了这样的功能。而聚类算法是元搜索引擎中最重要的一部分。  文本聚类在互联网搜索中具有重要的作用,因此人们对其进行了很多的研究,也产生了许多高效的聚类算法,如K-means,AHC,STC等。但这些算法都没有很好地利用词语的语义信息,近年来,Ulrike Stege与Alex Thomo提出了语义后缀树这一结构,使得后缀树聚类算法的性能得到了提升。  本文主要做了以下几个方面的工作:  (1)在语义后缀树的基础上进行改进,得到一种称为语义后缀树组的结构;  (2)将该结构应用于传统的后缀树聚类算法中,使算法所产生的后缀树的结点数量,分支数量及最终产生的聚类数量有所减少;  (3)在后缀树聚类算法的基础上提出了一种适用于中文web搜索结果的聚类算法,结合汉语语言的特点和语义相似性,提出了短语类的合并策略,提高了该算法的精确度。
其他文献
数据挖掘技术在近几年是很流行的计算机信息处理技术,通过这种技术在大规模数据中进行知识提取取得了很好的效果。数据挖掘技术已经被广泛的应用,对所应用到的行业通常起到指
在这个科技日益发展的时代,人们的生活越来越丰富,各种智能化设备也越来越受到大家的喜爱。其中,机器人作为人类科技与智慧的结晶,更是广泛应用于各种工业和服务业场所,为人类的生产和生活提供巨大的帮助。近年来,智能化社区受到越来越多的关注,人们希望通过更智能化的科技来提高生活品质。在室内,智能家居作为众多企业追逐的目标,而在室外,智能安防、智能物流等也因为软硬件技术的发展而不断革新。室外移动机器人作为其中
学位
随着改革开放的推进,人民的生活水平得到了普遍的提高。这样就有越来越多的人开始关注健康问题,但是中国的发展不会也不可能为每个人配备一名专职医生,这样就为Internet进入
随着现代生活水平的提高,公众的安全消费意识逐渐增强,整个社会对农产品的安全问题提出了更高的要求。本文针对这一问题,以果品生产链中的质量跟踪和可溯源为目标,采用物联网技术
GBSSL是实现半监督学习的有效途径,其根据数据集构造图,图中节点对应数据集中的数据,边权对应数据间的相似度。采用某种算法将标记节点的标记信息沿着图向未标记节点扩展,以达到
本文介绍了准线性支持向量机的理论,并提出了一种改进的序列最小优化算法来用于准线性支持向量机的训练。准线性支持向量机是具有准线性核函数的支持向量机,通过恰当地调整准线
网络全光化进程的加速以及网络技术的演进,扩展了传统数据业务以外的多业务模式。这些业务对网络数据访问的需求量以每年成倍的速度在增涨,随之而来的网络安全工作成为了前所未
Bagoffeatures方法自从2003年提出以来,在计算机视觉领域特别是图像分类和图像检索上得到了广泛的应用。它将每幅图像的局部特征集合映射成一个视觉词汇频率分布的直方图,使得
在过去的20年里,互联网的迅速发展很大地影响着每个企业的发展以及人们的日常生活。所以,云计算的出现是互联网发展的必然结果。云存储是随着云计算的产生而产生的。云存储将分
随着网络信息化水平的日益提高,企业及组织的各项业务对网络的依赖日趋加深。安全威胁的无孔不入迫使众多的企业、组织机构部署了各种安全产品。传统的安全管理平台(SOC)提供了