【摘 要】
:
关于查询扩展(QE)的研究工作中,大多数研究工作假设文档中的词项是相互独立的。因此研究者对查询扩展模型里的反馈文档进行建模时,一般使用的是多项分布。本文认为,在查询扩
论文部分内容阅读
关于查询扩展(QE)的研究工作中,大多数研究工作假设文档中的词项是相互独立的。因此研究者对查询扩展模型里的反馈文档进行建模时,一般使用的是多项分布。本文认为,在查询扩展方法中,应该存在一个更合适的分布对反馈文档进行建模,从而可以更自然地处理反馈文档中词项与词项之间的依赖关系,获得优于传统相关模型(RM,用于生成反馈文档)的建模能力。在信息检索领域里,最近,文档玻尔兹曼机(DBM)被提出,它对文档进行建模时,不再保留“词项之间相互独立”的假设,即该模型可以自然地捕获词项与词项之间的依赖关系。同时,DBM已被证明是传统语言模型的泛化,而且该模型在ad hoc查询任务中获得了更好的结果。在本文中,基于这样一个新的文档模型,我们将传统的RM方法中的多项分布替换为DBM,同时保留原始的QE框架,保证模型的简洁。在本文提出的查询扩展方法中,利用反馈文档训练DBM,得到新的相关模型,该相关模型称为相关DBM(rDBM)。扩展后的查询根据rDBM中的参数信息生成,并且本文给出了给定文档中扩展查询的似然函数,该似然函数的值作为对文档的最终评分,从而对文档进行排序。在训练rDBM时遇到的一个难点是数据稀疏问题,这将导致训练出来的rDBM模型是过拟合的,从而影响查询结果。为了解决该问题,本文采用了可信信息优先原则(CIF)优化rDBM模型,优化过的rDBM模型使我们的查询扩展方法更有效率、更有实用价值。本文在TREC数据集上进行了相关对比实验,实验结果证明本文提出的基于DBM的查询扩展方法的有效性,以及模型选择方法CIF的有效性。除此之外,本文中采用赤池信息准则AIC方法对文档玻尔兹曼机模型进行优化,一方面降低了模型的复杂度,另一方面避免了由于数据稀疏产生的过拟合现象,提高了检索效果。这也在TREC数据集上得到了证明。
其他文献
伴随着人们迈入新的纪元,计算机科学、网络科学、电子通信科学技术以非常重要的形式出现在生活中,现代信息化科技飞跃发展,信息化水平应用的高低也是提升一个单位办事效率和
武术项目在拉脱维亚共和国发展已有20余年,越来越受到拉脱维亚人民的欢迎。本人作为北京体育大学研习武术项目的留学生,肩负着为祖国的武术运动发展进行理论学术研究的责任。
随着人们对图像质量要求的提高,基于蒙特卡罗的真实感图像合成能够较好模拟大自然中较为复杂的现象如:高光、软阴影、焦散等,极大程度上满足了人们对特效画质的追求。基于蒙
Android应用自动化测试是应用质量保证的重要手段。针对目前Android应用自动化测试中传统自动化测试方法的自动化率和测试用例生成效率较低且应用异常发现能力较弱的问题,本
HEVC(High Efficient Vedio Coding)是最新的视频编码标准,其压缩性能较上一代视频编码标准H.264/AVC(Advanced Vedio Coding)提高了近一倍,如此高的压缩率必然会增加编码时
DOA估计是阵列信号处理的关键技术,在实际应用中,由于各种阵列误差难以避免,严重影响DOA估计的性能。通常使用的阵列校正过程非常繁琐,可以说阵列阵元误差的校正一直是困扰阵
当前我国金融体系中,银行居于绝对主导地位,间接融资比例较西方发达国家高20个百分点左右,成为我国经济杠杆率居高不下的主要原因。十九大提出:“打好防范化解重大金融风险的
彩色激光打印机由于其打印速度高、色彩再现性强,已经成为打印机发展的主流方向。彩色激光打印机涉及到的色图像处理技术在数字图像处理中得到了广泛的应用。与灰度图像相比,
室内电力线通信技术是通过配电网络中的导线来传输数据的一种有线通信方式。电力线通信使用的电力传输媒介具有分布广泛、便于获取等优点。然而,传统的电力线最初并不是为通
灰茶尺蠖(Ectropis grisescens)是我国茶园中一种主要的食叶类害虫,其对于茶树的生长以及茶叶产量的危害非常巨大,每年在我国各茶叶产区均有不同程度的危害。研制灰茶尺蠖生物防治高效生物农药,对提高茶叶品质具有重要意义。然而目前有关应用球孢白僵菌防治灰茶尺蠖的研究尚未见报道。本研究筛选出对灰茶尺蠖具有高致病力的球孢白僵菌菌株Bb493,并进一步研究了温度对白僵菌菌株Bb493萌发、产孢及