文档聚类在搜索引擎结果中应用的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zhjzhouji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着的Intemet飞速发展,人们利用Intemet发展和共享各种信息,使得信息爆炸式增长,普通网络用户查找所需资料变得非常困难,搜索引擎正是为了解决这一问题而发展起来的。而现在的搜索引擎存在明显的缺陷:一是搜索引擎结果数量庞大;二是搜索结果线性排列。本文在现有搜索引擎各种技术研究的基础上,对文档聚类进一步研究,致力于搜索结果的自动分类,从而使得用户更加直观高效地找到所需结果。 本文先介绍了搜索引擎的概念和原理,文档聚类的相关原理,设计了基于 Google WebAPI的解决方案,将搜索引擎返回的结果进行聚类处理,最后以结构化的方式显示给最终用户。 本文的主要研究成果包括: (1)对suffix聚类算法进行了研究,引入了PAT-tree数据结构,弥补了suffix聚类算法处理中文信息的不足,显著提高了文档聚类的性能。 (2)将文本聚类与现代搜索引擎技术结合起来,设计了一种新的搜索引擎体系结构,解决了当前搜索引擎存在的一些缺陷。 (3)在以上面各项研究的基础上,开发了实际的原型系统,从而证明了提出的新的搜索引擎体系结构的可行性。 搜索引擎是一个崭新的领域,其相关的许多技术还在发展,本文的最后对进一步的研究工作进行了探讨。
其他文献
随着无线通信技术的飞速发展,越来越多的移动用户利用掌上电脑通过无线接口访问互联网。在移动计算环境中,从服务器到移动客户机的下行带宽相对比较大,而从移动客户机到服务
本文对网络游戏中NPC系统的Agent模型进行了研究。文章阐述了Agent与多Agent系统的一般性特征;根据网络游戏本身的特点,建立了网络游戏NPC系统的Agent与多Agent系统的模型;给出
随着国内经济和网络应用技术的快速发展带动了网络游戏迅速发展,网络游戏用户规模也不断扩大,对游戏资源的需求也越来越高,因此产生了一系列的问题,如网络瓶颈、扩展性差、服
土壤墒情即土壤中的水分含量,制约着土壤中养分和矿物质的溶解以及转移,对作物的生长有着至关重要的作用,只有及时准确的掌握土壤水分盈亏状况才能及时排涝灌溉,保证作物的正
基于信号的稀疏性,压缩感知方法能够同时完成传统的信号获取中采样和压缩的两个过程,从而突破了传统奈奎斯特采样定理的限制,使得信号的采样率、采样时间以及存储成本大大降
随着计算机应用的日益普及和深化,计算机软件的数量急剧膨胀,软件规模十分庞大。然而,软件的在开发和维护过程中的一些模糊或错误做法和概念,致使很多项目不幸夭折,其中很多
信息是当今人类社会的重要资源,它必然要面对各种各样的安全威胁。在我们越来越依赖于信息技术的同时,信息安全的问题也日益突出。信息安全已经成为当前研究的热点课题,作为信息
随着数字网络通讯的飞速发展以及数字多媒体的广泛应用,对数字产品版权保护的需求也日益迫切。数字水印技术已经成为用来解决数字多媒体中版权问题和内容认证的主要工具。本
Internet技术的发展、移动设备的普及以及微博、微信等应用的兴起促进了网民对Web新闻的接触度,碎片化时间阅读Web新闻已经成为了Web用户的主要活动之一。然而,Web新闻网页中