信息检索中相关反馈算法的研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:gpi678c
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是关于信息的结构、分析、组织、存储、搜索和检索的领域。概括的说,信息检索就是从非结构化的信息集合中找出与用户需求相关的信息。信息检索的一个核心问题是注重用户和他们的信息需求,因为对搜索的评价是以用户为中心的。这种理念引发了大量关于人们怎样与搜索引擎进行交互的研究,特别是开发帮助用户表达他们的信息需求的技术。在用户参与的检索过程中,用户提交一个简短的查询,系统返回初次查询结果,用户对部分结果进行标注,标注为相关或不相关,系统基于用户的反馈计算出一个更好的查询来表示信息需求,并重新返回一批更有可能满足用户需求的新的检索结果,这个过程叫做相关反馈。在信息检索过程中使用相关反馈技术能够优化查询结果,提高查询效率。本文从介绍相关反馈技术的现状出发,给出了相关反馈技术的有关算法,包括向量空间模型,概率模型和布尔模型中的相关反馈技术。其中,以基于向量空间模型的Rocchio相关反馈算法为主,详细介绍了该算法的思想和执行过程及其在某些特定情况下查询效果不好的现象,如某个查询的答案集合本身就需要不同类的文档来组成和通常以多个具体概念的或关系来出现的词这两个方面,对Rocchio相关反馈算法进行改进,使该算法在这两种特殊情况下也能得到好的返回结果。本文就此做了以下贡献:(1)在查询语句包含多条件内容时,根据Rocchio相关反馈算法的思想,提出了将包含有两个条件信息的文档集看成新的交叉类,在交叉类范围内,从离初始查询最近的质心开始,向着另一个质心不断移动,在此过程中找到理想结果。改进后的Rocchio相关反馈算法能够有效解决多条件查询时返回结果不理想的状况。(2)在多义词查询时,系统返回的结果往往混乱无序,本文设计了一种对结果属性进行聚类的算法:层次收缩算法。该算法首先获取系统返回结果的关键词,用布尔矩阵表达,然后以文档间关键词个数作为度量方式,计算文档间相似度,按照文档间相似度,以合取方式将文档层次合并,聚类结束后提取返回的标签。在不考虑召回率的情况下,该算法的最终结果收敛于对簇中文档具有高度表达性的关键词,具有较高的正确率。
其他文献
在现实的生活中,随机现象广泛存在,其中实际的工程工业中随机扰动是不可避免的,比如空气中的湿度、风速、天气的温度等因素都会对系统的稳定造成一定程度上的影响。因此,为了更精确的描述实际系统的动力学特征,设计更适合的控制器,所以在对系统建立模型时,我们需要充分考虑时间的连续性以及对随机因素做出的控制,使系统最终能达到稳定状态。本文研究了在时间连续的情况下,网络化混杂系统的随机扰动控制问题,主要工作如下:
学位
本文中,我们引入一种新的稳定间断Galerkin有限元方法.由于添加一项加在沿单元公共边(面)的法向流上的稳定项,所以这种方法不同于一般的DG方法.我们导出变分等式满足一种局部
1966年,为了解决Ringels conjecture, Rosa等人提出了图的标号的概念,所谓图的标号是指:一个图的顶点标号是图的顶点集到整数集的映射,而根据对边标号的不同要求,产生了各种
拟循环码是循环码的推广,本文研究通过线性代数理论构造出的有限域上一类拟循环码的和与交.  本文通过探讨矩阵多项式环中两个矩阵的右最大公因子与左最小公倍式的存在性问
本文研究以下带有某种特性的势函数的非线性椭圆方程{-△u+V(x)u=f(x,u),x∈RN,u>0x∈RN,(*)u∈D1,2(RN).的解的存在性问题.其中V(:)RN→R是一个非负的连续的函数,它可以在无穷远
近几年,3-李代数在数学和数学物理的相关领域有着广泛的应用,本文研究的主要问题是3-李代数的实现,受到Poisson代数的启发,提出一类新的代数结构,称为Poisson-偶代数,并利用其代数
本文主要对一致凸Banach空间中两族映射的公共不动点逼近问题进行了讨论,使用性质更弱的映射将之前的隐迭代序列、非自映射的三步迭代序列推广为有限步,并给出集值渐近非扩张映
本文主要应用复分析理论和方法研究了几类二阶线性微分方程解的增长性和Borel方向,全文共分为四章.   第一章,简要介绍了本方向的发展以及一些预备知识.   第二章,本章运
双圆盘上的哈代空间H2(D2)可以看成为多项式代数C[z,w]的一个模.其模作用为一般的函数乘法.在经典哈代空间H2(D)(C[z]的模)内,Beurling定理表明移位算子的每个不变子空间S都对应
使用函数符号来刻画算子的性质,是算子理论的主要研究目的之一,本文主要研究了和Dirichlet空间上以及调和Bergman空间上Toeplitz算子以及(小)Hankel算子的交换性,乘积,有限秩,紧性,零