【摘 要】
:
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已成为全球最大、最广泛使用的信息库。如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索技术越来越受到
论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已成为全球最大、最广泛使用的信息库。如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索技术越来越受到人们的重视。在目前绝大多数的信息检索系统中,其检索出来的信息(如文档等)都以排序的方式返回给用户。因此,如何高效地为信息进行排序成为信息检索模型研究的核心问题之一。
近年来,利用监督学习的方法构造排序模型是信息检索领域中对排序方法研究的热点。排序感知机算法与排序支持向量机算法是基于监督学习的排序算法中的代表。然而,目前所有的排序学习方法都是基于有监督学习的方法,需要大量的人工标注样本。标注样本是一项耗时长、难度大且代价昂贵的工作。因此,找到一种能够降低标注代价的排序学习方法是十分必要的。
本文针对信息检索中排序学习样本标注代价过大的问题,提出把主动学习方法融入到排序学习中去,在查询函数的设计与构造、主动排序学习算法的研究与实现、实验设计与实验验证分析等方面开展研究。
本文提出了基于样本不确定程度的查询函数。使用本文提出的查询函数,排序模型可以通过计算每个样本对应不同序标号的确定程度,自动找出最不确定的样本,作为“最值得标注”的样本,减少了样本标注量,从而降低了标注代价。提出并实现了基于数据点的主动排序感知机(Active PRank)算法和基于有序对的主动排序支持向量机(Active RSVM)算法,并应用于文档检索和网页检索。
通过在两个大规模真实数据集上的实验表明,使用本文提出的算法可在保证排序模型性能的前提下,减少样本的标注量;在同等标注量的条件下,可以提高排序结果的正确率。
其他文献
端到端丢包率是基本的网络性能测度。因为受到网络规模、应用行为等多方面因素的影响,丢包特征的测量和估算一直以来都最具挑战性和最难以测量的网络性能参数。本论文从实测
随着软件产品规模的日益扩大、软件复杂性的不断提高,软件危机的出现让软件开发与软件维护变得越来越困难,软件工程正是为了解决软件危机而出现的一门学科,它在软件开发与维
信息隐藏是进行产品版权保护的一种手段。随着数字化和网络化的飞速发展,信息隐藏技术成为当前信息科学领域研究的热点。数字水印技术是信息隐藏技术的一个主要分支,该技术将
土地覆盖变化是全球变化研究中的一个重要内容,而土地覆盖分类又是研究土地覆盖变化的重要前提。全极化SAR(Synthetic Aperture Radar)数据包含目标较完备的物理性质和结构信
AVS标准是《信息技术先进音视频编码》系列标准的简称,是我国具备自主知识产权的第二代信源编码标准。AVS-M是AVS的第七部分,主要目标是满足无线移动网络、IP网络中视频通信业
无线传感器网络是由大量的价格低廉的传感器节点组成,这些传感器节点组织形成多跳无线网络,协作地完成大规模传感任务。作为一种新型的网络和计算技术,它可以将客观世界中不断变
随着信息技术的不断发展,数据挖掘在企业、政府和科学研究中越来越多地得到广泛应用,一批数据挖掘系统作为商业智能系统的一部分被开发和部署。然而不同系统间数据挖掘结果格
P2P是网络计算的一种新技术,其目的是将网络中不同的计算机连接在一起,进行文件共享与交换,并能充分利用互联网和Web站点中的闲置资源。这种网络结构中所有的网络结点是互相
在图像识别的方法中,人们的一般性思维是寻找图像中存在的某些具体特征,然后利用这些特征进行分类,特征提取是图像处理领域重要的研究方向。但事物的具体特征可能是千差万别的,如
随着近年来钢琴教学的兴起,大量的人员加入到了学习钢弹奏的队伍。但昂贵的钢琴教学费用以及它特有的教师和学生一对一的教学模式造成了钢琴教育资源非常的紧缺,学习钢琴演奏