基于文档间相似性的Top-k排序学习方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bbandd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在随着人们对互联网上的信息需求越来越大,能够准确快捷的获取到信息已经成为了搜索引擎研究方面的热点问题。在这其中,排序成为了搜索引擎技术中至关重要的一环。为了使得用户满意度提高,势必就要提高返回结果的精度,把最为相关的若干页面返回给用户。如何实现这一目的便成为了对搜索引擎研究的热点,最近若干年最为流行的热点方法便是将搜索引擎中的排序过程使用机器学习的方法来研究解决,这是由于影响排序结果的特征因素十分繁杂,将这些因素都考虑进去势必会得到一个更加合理的排序结果。这种方法也就是Learning to Rank方法。在实际应用中如信息检索,推荐系统或者计算广告等,对于大部分用户来说,主要关心的是排序比较靠前的若干个结果,而对于排名靠后的结果,其准确度是可以适当忽略的。也就是说,靠前的若干结果对于用户的用户体验和满意度来说,这些结果是至关重要的。由此,一种叫做Top-k排序的排序方法被提出来解决上述要求。本课题在前人提出的模型的基础上加以改进,首先是在层次Top-k排序模型中加入了文档之间的相似性信息,这样一来,模型在对Top-k数据建模的过程中考虑了文档之间的相似性,并不是把文档看做是互相独立不相关的,而是有联系的。我们将文档之间的相似性作为每个文档打分的加权加到对其他文档的打分中。这样一来便能充分利用这些附加的信息为我们的Top-k排序算法服务,使得最终的排序结果得以改进。当加入文档之间的相似性得到新的模型后,本课题又提出了不使用重新设计损失函数并令其最小化而直接使用对排序概率进行最大化的方法来对模型参数进行优化,这样做的结果是使得训练模型的运算量大大降低,从组合级别降至多项式级别。这样一来使得本课题提出的方法具有了现实的意义与应用的价值。而后又结合实验结果对Top-k模型进行了改进,由于原Top-k层次模型在第一层过程中有不少本应排在前k个位置上的文档被错误的放到位置k以后。这样导致的问题是:由于第一层结束后模型提供给第二层的信息存在缺陷,所以不管第二层过程算法再复杂,使用的附加信息更多,对整体Top-k的排序效果也不会提高,基于这点。本课题将第一层过程中进行计算时的k适当增大,但仍然相对于整个相关性文档集合N来说仍然很小。这样做便使得第一层过程之后,真正处在前k个位置的文档比例增加,第二层再用比较复杂的算法进行排序时,准确度大幅提高。
其他文献
随着全球竞争的日趋激烈和广泛,软件业面临产品设计,制造与市场的敏捷性的要求。传统的串行设计以远远不能适应快速变化的市场需求,各企业都在寻求新的设计理念和方法。在这种情
指纹作为人类的特征信息,它具有唯一性(uniqueness)和不变性(immutability)。正因为这两个性质,指纹识别对于个人身份鉴证具有十分重要的意义。从十九世纪中期,现代指纹识别
随着嵌入式技术的发展,人们越来越依赖各种手持设备,如手机、平板电脑等。传统的单核处理器渐渐无法满足人们日益增长的需求,因此将多核技术运用到嵌入式手持设备的生产中,从而提
本文主要是针对DCOM的负载平衡问题。所谓负载平衡就是将计算平均到多个机器上,将客户的请求发送到负载最轻的服务器上。本文从上层用户即编程用户的角度提出一种低成本平衡
近年来,随着竞争机制被引入电信领域,电信网络运营商必须以上层业务作为其核心竞争力。传统的网络层以下的电信专业网管系统也逐渐暴露出其缺陷,即由于缺乏信息的互通导致无
当前,知识管理已经成为企事业提高技术、竞争、商务和策略智能的重要手段。知识管理的任务就是使适当的人员在适当的时机能快捷地查询到以适当样式表示的所需知识,去帮助解决工
作为计算机视觉中的一大研究领域,行人检测技术在最近几年已经赢得了越来越多关注的目光。行人检测的主要目的是要把图片或视频场景中的行人与背景进行区分,并确定行人在图像中
经济的全球化和社会的信息化,特别是网络技术的迅猛发展,使得人们面临着更为广泛的活动范围和更多的合作机会,群体的规模越来越大,范围也越来越广。在教育领域,人们将目光也
本文对网格的安全需求进行了深入的分析,在此基础上提出了一种可扩展的网格安全体系结构,根据该体系结构的恩想,着重提出了一个网格的访问控制模型CG-RBAC。本文中各章节的安
目前企业级应用日趋复杂,它具有涉及资源众多、事务密集、数据量大、用户数多、对安全性要求高等特点。应用中间件技术特别是对象中间件技术可以大大缩短企业级应用的开发周