Web搜索结果聚类研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:dsfaxfdsrfdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大多数搜索引擎以线性列表的形式为用户返回搜索结果,而搜索结果往往数以万计,这就使得用户可能需要花费很长时间才能找到自己需要的结果。如果能够将搜索结果按照不同的主题进行聚类,并且赋予每个类别一个具有良好描述性的标签,那么将会大大减少用户查找信息所需的时间,提高信息获取的效率。 然而,传统的文本聚类方法并不太适用于搜索结果聚类,本文中提出的算法都是首先提取文档集合中具有描述主题能力的短语,然后将文档根据短语划分到不同的簇集中,并使用短语作为簇集的描述标签。这种方法不仅能够取得比较好的聚类效果,并且生成的标签可读性高,有利于用户查找需要的信息。 论文的工作包括几个方面:(1)对后缀树搜索结果聚类算法进行改进,根据短语的TFIDF属性和独立性提出了一种新的公共短语评分方法。通过将这两个属性结合,能够找到更加合理的公共短语,从而提高了聚类的准确度;(2)在原有研究的基础上,提出了基于非负矩阵分解的搜索结果聚类算法。由于该算法考虑了文档数据的非负性,因此抽取的短语按更能反映样本的局部特征,因而更接近人们的认知习惯,并且具有很高的可解释性和预测性;(3)研究了搜索结果聚类的实现技术,以Eclipse为平台,设计与实现了原型系统;(4)在原型系统的基础上,对文中提出的算法进行大量的比较实验,并对实验结果进行了分析与总结。
其他文献
随着移动互联网时代的到来,Android系统迅速得到普及。作为移动终端的主要平台,Android系统上的应用程序所存在的安全问题越来越受到人们的关注。由于目前移动终端存储了大量
可拓学是1983年由中国的蔡文教授提出来的。可拓学的目的在于通过从定性与定量两方面研究矛盾本身,解决矛盾的方法。该学科广泛应用于多个领域,已取得了一定的成果。作为信息
随着Internet的发展,网络已经深入人们生活的各个方面,并正在对人们的生活产生更大的改变。人们越来越倾向于从网络获取各种信息和帮助,来完成自己的任务。Web服务的出现提供
三维数字水印攻击算法作为三维数字水印算法的一个重要分支,目的在于找出三维数字水印系统的弱点及其易受攻击的原因,然后加以改进。这就象传统密码学所经历的加密--解密的否
电力市场运营系统在保证电网安全、稳定、经济运行方面起到了重要的作用。为了保证电力市场运营系统中重要信息的安全,必须加强身份认证和访问控制机制。在身份认证方面,本文给出了一种新的用户和服务器间的双向认证模型,该模型除了可以完成用户和服务器之间的双向认证外,双方还可以协商产生协商密钥用来对通信的内容进行加密。访问控制方面,本文设计了一个基于角色和可信度的动态访问控制模型,该模型中用户的权限可以根据其可
Petri网适合于描述异步并发行为的系统。首先,Petri网直接展现并发系统的物理结构层次及资源状态的初始分布状况。其次,在Petri网引发规则的作用下将间接展现出该并发系统的动
人脸检测的目的就是从给定的图像中,框定出人脸的区域。人脸检测是人脸识别的不可缺少的预处理,一般来说其计算量非常大。如何快速而有效地检测出人脸,是人脸检测的一项重要
智能交通系统(Intelligent Transportation System,简称ITS)是目前世界交通运输领域的前沿研究课题,其核心是针对日益严重的交通需求和环境保护压力,采用信息技术、通信技术
3D打印是一种通过堆积材料来形成模型的技术。其中一种3D打印的一般过程是:首先通过三维激光扫描设备获取模型点云数据,其次通过一定的分层算法将点云模型划分成层片信息,最
自上世纪70年代Internet诞生以来,因特网迅速发展。随着TCP/IP技术的发展和人们需求的增加,Internet的应用逐渐由最初仅限于军事应用普及到民用。这使得Internet的规模越来越