论文部分内容阅读
随着Internet的飞速发展,Web已经成为当今最大的信息源,同时搜索引擎又成为从Web上面获取信息的最主要工具。CNNIC的信息统计指出,目前搜索引擎已经成为继电子邮件之后人们用得最多的网上信息服务系统。在传统的信息检索系统中,用户通过指定一系列由关键词组成的查询短语来获取与之对应的一系列文档集合。这一方式对于获取互联网上的数字化信息同样是非常适用的。但是用户常常并不能用简单的几个关键词精确的描述出其想查询的内容,意即用户通常很难在搜索引擎中构造有效的查询短语来获取想要的信息。为了解决这一系列的问题,针对搜索引擎的查询推荐系统也就应运而生。现在的主流搜索引擎都提供了查询推荐的服务,目的就是帮助用户在查询过程中找到其最需要的查询短语。
在搜索引擎查询推荐系统领域研究中,论文主要完成了以下几个方面的工作:
①研究了基于搜索引擎的查询推荐系统的背景和与其相关理论知识。
②研究了适用于搜索引擎的主要查询推荐算法,分析了它们在推荐过程中的优点、其适用的范围,以及其不足之处。按照它们在推荐过程中是否依附于文本相似度计算将其划分为两类:基于文本相似度的查询推荐模型和非基于文本相似度的查询推荐模型。
③本文提出了一个新的通过分析用户查询日志,并基于文本相似度的有效且实用的查询推荐方法。与传统基于文本的查询推荐方法不同的是本文首次提出两个不同的查询关键词间的语义相似度应该是非对称性的,包括内容不对等和时序不对等,即不同查询之间不再是简单的无向图的关联,而是一种类似于有向图间的偏序关系。为了获取更好的实用推荐效果,在筛选候选推荐并进行相应排序时,三个因素被考虑进来,包括查询短语本身,相关文档内容和查询频率。
④编码实现基于文本的非对称相似度推荐系统;在此基础上大规模的应用了实际日志和网页库的试验结果表明本文的方法在推荐的合理性和准确率方面较传统方法有所提高。
最后在总结全文的基础上,分析算法的不足并提出了有待进一步深入研究和探讨的问题。