基于文档内容的非对称相似度查询推荐

来源 :重庆大学 | 被引量 : 0次 | 上传用户：wushupei

【摘要】

：

随着Internet的飞速发展，Web已经成为当今最大的信息源，同时搜索引擎又成为从Web上面获取信息的最主要工具。CNNIC的信息统计指出，目前搜索引擎已经成为继电子邮件之后人们用得

【作者】

：

饶勋荣

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2009年期

【关键词】

：

查询推荐文本相似度搜索引擎信息检索文档内容

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的飞速发展，Web已经成为当今最大的信息源，同时搜索引擎又成为从Web上面获取信息的最主要工具。CNNIC的信息统计指出，目前搜索引擎已经成为继电子邮件之后人们用得最多的网上信息服务系统。在传统的信息检索系统中，用户通过指定一系列由关键词组成的查询短语来获取与之对应的一系列文档集合。这一方式对于获取互联网上的数字化信息同样是非常适用的。但是用户常常并不能用简单的几个关键词精确的描述出其想查询的内容，意即用户通常很难在搜索引擎中构造有效的查询短语来获取想要的信息。为了解决这一系列的问题，针对搜索引擎的查询推荐系统也就应运而生。现在的主流搜索引擎都提供了查询推荐的服务，目的就是帮助用户在查询过程中找到其最需要的查询短语。　　在搜索引擎查询推荐系统领域研究中，论文主要完成了以下几个方面的工作：　　 ①研究了基于搜索引擎的查询推荐系统的背景和与其相关理论知识。　　 ②研究了适用于搜索引擎的主要查询推荐算法，分析了它们在推荐过程中的优点、其适用的范围，以及其不足之处。按照它们在推荐过程中是否依附于文本相似度计算将其划分为两类：基于文本相似度的查询推荐模型和非基于文本相似度的查询推荐模型。　　 ③本文提出了一个新的通过分析用户查询日志，并基于文本相似度的有效且实用的查询推荐方法。与传统基于文本的查询推荐方法不同的是本文首次提出两个不同的查询关键词间的语义相似度应该是非对称性的，包括内容不对等和时序不对等，即不同查询之间不再是简单的无向图的关联，而是一种类似于有向图间的偏序关系。为了获取更好的实用推荐效果，在筛选候选推荐并进行相应排序时，三个因素被考虑进来，包括查询短语本身，相关文档内容和查询频率。　　 ④编码实现基于文本的非对称相似度推荐系统；在此基础上大规模的应用了实际日志和网页库的试验结果表明本文的方法在推荐的合理性和准确率方面较传统方法有所提高。　　最后在总结全文的基础上，分析算法的不足并提出了有待进一步深入研究和探讨的问题。

其他文献

全局模糊C-均值聚类算法在色彩迁移中的应用

在图像处理领域中，色彩迁移指的是把一幅图像的颜色信息转移到另一幅图像，使新生成的图像既保存原图像的形状信息又具有其他图像的色彩信息。根据所选的目标图像的不同，不仅能产

学位

图像处理颜色迁移色彩迁移算法聚类算法算法理论

手机功能自动化测试工具的研究与实现

软件测试是伴随着软件的产生而产生的，有了软件的生产和运行就必然有软件测试。软件测试作为保证软件质量和可靠性的关键技术，正日益受到广泛的重视。随着软件工程规模越来越大

学位

手机功能自动化测试工具软件测试

基于数据工程的流程工业参数分析与优化

数据工程负责信息系统中数据的设计、研究开发、管理和利用，具体包括：数据库设计，数据知识及处理，数据的语言描述，访问及利用数据库，数据访问的策略及技巧，安全性及完整性的控制，工程

学位

数据工程数据挖掘水泥工艺参数分析流程优化

一种开放式高性能全文检索平台的研究与实现

信息的快速增长促使搜索引擎的迅速发展。通用搜索如Google、Baidu已取得很大成功,然而,一方面它们的技术严格保密,另一方面,开发人员不可能将庞大的通用搜索引擎无缝地嵌入

学位

全文检索中文分词倒排索引索引维护搜索引擎

自适应视觉跟踪方法研究

视觉跟踪是计算机视觉研究领域中的一个重要方向。近几十年来,人们提出了许许多多用于视觉跟踪的算法。这些算法在目标物体的表示方法、图像特征的选取、以及目标物体运动、

学位

自适应视觉跟踪增量式特征子空间学习粒子滤波Condensation粒子贫化局部双回路结构

基于密度模式的参数自适应聚类算法研究

聚类算法的自适应程度对其在许多领域的应用效果有着重要的影响,而这方面的研究尚比较薄弱,论文研究在不牺牲算法效率和准确性的前提下,如何提高聚类算法的自适应性。在深入

学位

聚类算法自适应密度模式动态k近邻图

一个虚拟社区游戏系统的设计与实现

本论文介绍的网络游戏服务器端系统是在J2EE框架的基础之上,以Web浏览器为平台,实现了一种胖服务器、瘦客户端的模式。它可以支持多种操作系统和数据库系统,支持分布式应用。

学位

网络游戏服务器系统高性能消息传递分布式

社会媒体实体关联网络的复杂性研究

随着Web2.0概念的深入人心，博客、社交网络、微博等社会媒体相继出现并逐渐盛行，互联网社会媒体逐渐成为人们日常生活中重要的交流平台。复杂网络的研究近年来取得了较大的发展

学位

社会媒体维基百科微博复杂网络语言网络社区检测

基于丰富度的多角度本体映射研究

语义Web的目标是使得Web上的信息具有计算机能够处理的语义。语义原生XML数据库系统(简称SNAX)的研发目的是构建一个提供研究语义Web的各种理论、技术和方法的平台。本体映射

学位

语义Web丰富度多角度本体映射

模糊聚类挖掘技术研究及其在高考志愿填报服务中的应用

志愿填报是高考招生过程的一个重要环节,在没有科学指导的情况下,很容易出现考生盲目填报的情况,因此,为考生提供志愿填报智能服务有重要意义。院校推荐服务根据考生要求对高

学位

院校推荐服务模糊C均值算法最佳聚类数合并聚类中心特征加权

基于文档内容的非对称相似度查询推荐

其他学术论文