联邦检索中支持检索结果多样化的资源选择研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:Roy163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网技术发展迅猛,搜索引擎已成为人们最常用的网络应用之一。传统的集中式信息检索系统,已不能够充分应对网络信息量和检索需求量的爆炸式增长。基于分布式架构的联邦检索,成为学术界和工业界最受关注的搜索引擎技术之一。资源选择是联邦检索中一项重要的研究任务。另一方面,检索结果多样化也是近年来信息检索领域的研究热点,它的主要目的是满足用户对于查询的多元化检索需求,是应对短查询和模糊查询的重要技术。如何适应新的检索环境,在联邦检索系统中,通过有效的资源选择算法选择合适的资源组,实现检索结果多样化是本文的主要研究内容。论文的主要工作如下:(1)基于LDA主题模型,提出了一类多样化资源选择方法。该方法用α相关度筛选资源样本文档,提出利用LDA主题模型分析样本相关文档。该类方法采用贪心选择策略,通过平衡文档的查询相关性和多样性,选取多样化性能最佳的资源组。将该类方法应用在文档层和资源层,提出了D-LDA和R-LDA算法。(2)基于词向量技术,提出了一类多样化资源选择方法。从文本语义的角度分析资源样本文档,并结合TF-IDF权重,充分考虑文档中词项分布特征,在语义空间中实现文档、资源建模。将该类方法应用在文档层和资源层,分别提出了D-WE和R-WE算法。(3)针对联邦检索环境中,检索结果多样化任务下的资源选择问题,在Clueweb12-B13数据集的基础上构建联邦检索实验环境。同时提出了一种适应联邦检索环境的评价指标SDC,作为实验中多样化资源选择评价指标的补充。(4)进行实验对比现有研究和本文中提出的四种算法,分析四种算法的性能和运行效率。实验结果表明,四种算法均能在保证运行效率的前提下,有效地提升资源选择结果的多样化性能。其中,基于文档层LDA主题模型的D-LDA算法性能最佳。
其他文献
随着经济的飞速增长,现代人类社会对能源的需求量不断增加,导致产生的能源危机和环境问题变得日益突出,开发绿色可持续新能源势在必行。其中,氢能由于一系列优点而作为可替代
随着广大学者和专家的深入研究,以知识图谱为基础实现的问答系统,和阅读理解方式的问答模式来到人们视野,这些新颖的问答系统分别从不同的角度解决了检索式对话系统遇到的问题。到今天,它已经从最开始的BASEBALL和LUNAR系统发展为封闭域和开放域的两种成熟的问答系统。如今各种技术类型的问答系统在不同的商业领域中广泛应用。传统面向任务型的对话模型都是采用端到端的方式进行搭建的,一般由编码器和解码器组成,
小学四年级学生良好的数学文本阅读能力有利于学生积累数学语言、进行数学思考,形成数学思维,提高数学学习效率,并为终身学习奠定基础。经过见习、研习、实习过程了解和发现Q市S小学的学生存在不同程度上的数学文本阅读障碍,由于四年级学生处于第一学段和第二学段的过渡时期,是数学学习的转折点,也是培养学生数学文本阅读能力的关键期,因此选择Q市S小学四年级学生为例。研究方法以问卷调查法、访谈法和文本分析法为主,同
首先,采用右手螺旋定则建立薄壁曲梁的坐标系,运用А. А. Уманский的闭口截面薄壁杆件约束扭转理论,确定任意形状截面的主扇性零点位置和剪切中心位置,推导出了薄壁曲梁
党的十九大报告中明确指出,要坚决打赢打好脱贫攻坚战,让贫困人口和贫困地区同全国一道全面进入小康社会。而当前,因病致贫、因病返贫是制约贫困人口稳定脱贫的一项重要影响因素。深入实施健康扶贫工程,对于保障贫困人口享有更高标准高质量高效率的医疗卫生健康服务,推动精准扶贫向纵深开展具有关键作用和重要的现实意义、历史意义,是实现贫困人口稳定脱贫必须坚决完成的重点任务。广东省揭阳市作为粤东西北欠发达重点地区之一
随着科学技术的进步和工业规模不断拓展,在排放废气中容易造成环境污染和各种危害;在矿业生产中易引发易燃易爆性气体,对人们的安全带来极大的危害;家庭在经过装修之后也容易
提升青海省农牧区基础教育质量的核心在于提高师资质量,青海农牧区师资重要来源是民族师范生,因此,民族师范生的培养质量是农牧区基础教育师资质量的重要保障,也是青海省农牧区基础教育的质量保障。此外,在我国高等教育从规模扩张为特征的外延式发展向质量提升为核心的内涵式发展转变的背景下,不断提升民族师范生的培养质量也是高校内涵式发展的必然要求。民族师范生的学习效果直接关系到民族师范生的培养质量。根据现代学习理
我国政府对医药产业高度重视,不断加大对医药行业的投资金额,使得我国从事医药产业的企业竞争力不断增强,在满足国内市场产品需求的基础上,逐渐将目标转移至国际市场,近些年,
刑事类推制度是指在刑法没有明文规定的情况下,以类比推理的方法和法律规定的程序,比照依附最相类似的刑罚条文,对一些刑事疑难案件进行出罪或者入罪的法律制度。在我国刑事比附类推制度起源于周秦时期,在汉唐时期得以发展,并被延续至明清时期,直至现代也曾规定过刑事类推制度。刑事类推制度之所以能够延续如此多年,其必有独特的法律功能。中华人民共和国第一部刑法即1979年刑法第七十九条明确规定了类推制度,但在199
随着计算机与网络技术的迅速发展,工作流软件受到越来越多企业、政府的重视。现在,工作流技术已成为企业、政府信息化建设方案中不可或缺的内容之一。从简单的办公自动化系统