基于机器学习的查询优化研究

被引量 : 10次 | 上传用户:fxmen2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
揭示用户的检索需求是文本检索中重要的研究课题。当前有诸多问题函待解决,例如有些查询“词不达义”,致使相关文档因为和查询词不匹配所以无法被检索出来;有时,多个查询词之间需要“分清主次”,这样就需要系统给各个查询词赋予权重,以示区别;再比如“相关反馈”探讨如何利用直接或间接的反馈信息来优化查询。本文以优化用户的查询为目标,以机器学习算法的研究为核心展开研究工作。针对上述的问题从三个方面展开研究,(1)基于监督学习的查询扩展方法;(2)基于线性分类器的查询词权重估计方法(3)基于受限化聚类的相关反馈。首先,针对查询词和相关文档不匹配的问题,本文提出了基于监督学习的查询扩展方法,即训练有监督模型来挑选扩展词的方法。这种方法的优点在于综合了扩展词的各种特征,因而能更准确地识别出扩展词的好坏。由于用于扩展词挑选的训练数据难于获得,作者进而提出了利用检索结果评价集自动生成训练数据的方法,并对训练数据进行了细致的分析,从而指导模型的训练过程。该方法在多组标准评测数据上获得了良好的性能,提升幅度高于传统的查询扩展方法。其次,针对信息检索中查询的权重设置问题,本文从机器学习的角度提出一套概率分类的框架,把查询的权重估计任务转化为有监督学习模型中的参数估计任务,并且采用生成式和判别式两种模型去估计查询词的权重。在TREC标准测试集合上的实验结果表明无论是生成式模型或者是判别式模型,都能使检索系统的性能获得显著的提升。最后,本文对用户提供的显式反馈信息进行研究,引入受限化聚类的算法,把用户的显式反馈信息作为文档聚类的限制条件,使系统获得更多高质量的伪相关文档,从而产生一个更好的查询。作者不仅在传统的标准评测数据上进行模拟实验,同时也在获得用户真实反馈的情况下,在大规模的数据集(ClueWeb09)上进行实验,这些实验的结果都一致地展示了受限化聚类算法在相关反馈中的重要作用。
其他文献
高校科技成果转化率是体现国家科学技术创新水平和自主创新能力的重要指标之一,目前我国高校科技成果转化率低下、成果流失严重,凸显了相关知识产权保护制度欠缺等问题。构建
持有商业银行股权是A股市场近年来的热门现象。通常上市公司参股银行会出于三个目的:多元化投资、股份分红、资本增值。本文试图从关系型融资这一深层次原因出发,通过研究公司
二十一世纪以来,随着我国经济发展不断加速,人口数量的迅速增加,人们享有的土地资源变得越来越宝贵,尤其是快速城市化地区的土地利用变化研究成为当下的前沿和热点。实时和准确地
威廉·福克纳的《喧哗与骚动》和玛格丽特·米歇尔的《飘》一直备受评论界的关注,对于二者人物的对比研究在新世纪初也有西方评论家进行了分析,但是对于两人的女性观的对比,还是
随着现代物质文化生活的不断变化,人们对生活环境的要求越来越高,开始将绿萝、吊兰等植物置于室内,能够净化空气、吸收粉尘、增加湿度,从而创造良好的室内环境。本文以薄荷为例,通
本文通过对国家旅游局权威性的游客调查资料的分析,发现导游服务质量是我国旅游服务质量体系中的一块“短板”,但近年我们从理论和实践上都未抓住导游服务质量问题的根源。文
自18世纪40年代以来,随着西方工业革命进程,发达国家经济发展迅猛,刺激了以定居为目的的城镇化进程以及以旅居为目的的旅游业发展。国外对城镇旅游的研究始于19世纪70年代,早
定位是当前旅游市场竞争日趋激烈形势下目的地至关重要的营销工作。文章在综合检索国外目的地定位相关研究文献的基础上,对其8个方面的研究关注点的内容进行了较为详细的回顾
水压伺服控制技术作为机电液一体化高度融合发展的现代液压技术,已成为当前国际流体传动与控制领域内一个重要的研究方向。水压电液伺服阀是水压伺服系统的核心控制元件,具有体
自媒体具有平民化、个性化、易操作、交互强、传播速度快、把关机制弱化、信息良莠不齐等特点,它的广泛应用,深刻影响了大学生的学习和生活方式,给大学生思想政治教育带来了