论文部分内容阅读
现在随着人们对互联网上的信息需求越来越大,能够准确快捷的获取到信息已经成为了搜索引擎研究方面的热点问题。在这其中,排序成为了搜索引擎技术中至关重要的一环。为了使得用户满意度提高,势必就要提高返回结果的精度,把最为相关的若干页面返回给用户。如何实现这一目的便成为了对搜索引擎研究的热点,最近若干年最为流行的热点方法便是将搜索引擎中的排序过程使用机器学习的方法来研究解决,这是由于影响排序结果的特征因素十分繁杂,将这些因素都考虑进去势必会得到一个更加合理的排序结果。这种方法也就是Learning to Rank方法。在实际应用中如信息检索,推荐系统或者计算广告等,对于大部分用户来说,主要关心的是排序比较靠前的若干个结果,而对于排名靠后的结果,其准确度是可以适当忽略的。也就是说,靠前的若干结果对于用户的用户体验和满意度来说,这些结果是至关重要的。由此,一种叫做Top-k排序的排序方法被提出来解决上述要求。本课题在前人提出的模型的基础上加以改进,首先是在层次Top-k排序模型中加入了文档之间的相似性信息,这样一来,模型在对Top-k数据建模的过程中考虑了文档之间的相似性,并不是把文档看做是互相独立不相关的,而是有联系的。我们将文档之间的相似性作为每个文档打分的加权加到对其他文档的打分中。这样一来便能充分利用这些附加的信息为我们的Top-k排序算法服务,使得最终的排序结果得以改进。当加入文档之间的相似性得到新的模型后,本课题又提出了不使用重新设计损失函数并令其最小化而直接使用对排序概率进行最大化的方法来对模型参数进行优化,这样做的结果是使得训练模型的运算量大大降低,从组合级别降至多项式级别。这样一来使得本课题提出的方法具有了现实的意义与应用的价值。而后又结合实验结果对Top-k模型进行了改进,由于原Top-k层次模型在第一层过程中有不少本应排在前k个位置上的文档被错误的放到位置k以后。这样导致的问题是:由于第一层结束后模型提供给第二层的信息存在缺陷,所以不管第二层过程算法再复杂,使用的附加信息更多,对整体Top-k的排序效果也不会提高,基于这点。本课题将第一层过程中进行计算时的k适当增大,但仍然相对于整个相关性文档集合N来说仍然很小。这样做便使得第一层过程之后,真正处在前k个位置的文档比例增加,第二层再用比较复杂的算法进行排序时,准确度大幅提高。