基于改进语言模型的相关反馈方法的检索系统

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xixiyibobo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,internet上的信息量以惊人的速度快速膨胀,将人们置身于一个信息爆炸的时代。所以信息搜索服务是现今互联网用户中最为流行的服务之一。然而由于人们对于信息需求的模糊性导致了,信息检索的结果往往不尽人意。为了能够提升信息检索的结果,就需要采用各种各样的信息检索模型以及相关反馈的策略来提高检索结果的准确性。首先,本文分别对四种经典的检索模型,布尔模型,向量空间模型,概率模型,语言模型进行了总结与分析。然后介绍了经典模型中的相关反馈技术,以及检索系统的性能评测方法。   第一,本文提出了利用改进的语言模型与向量空间模型相结合的反馈技术来对检索系统的性能进行改进。即通过改进的语言模型来抽取相应个扩展词,然后通过扩展词分类和实体抽取,进一步的对扩展次进行筛选。最终确定扩展词将其加入到原始查询向量中,分别赋予相应的权重进行新的查询。从而改善检索系统的性能。该方法被运用在TREC FEEDBACK2008的数据集上,该方法提高相关性检索性能指标35%以上。   第二,本文提出了基于扩展词分类的中的几个关键特征。其中包括,扩展词的分布,单一查询词共现,查询词对的共现以及词的权重等特征。使用的训练样本是来自于2009年TREC评测的结果。然后对2010的TREC数据扩展词分类。效果良好,对整个信息检索系统的性能提升有很大的帮助。   第三,设计与实现了一个基于改进语言模型的检索系统。在整个的系统融合了相关文档的聚类扩展,扩展词分类等核心技术。从而大幅的提高的检索的性能。在2009与2010年的TREC FEEDBACK测试任务中,该系统出色的完成了后续任务的基准系统.
其他文献
面对不断推陈出新的隐写技术以及互联网上不断涌现的数以亿计的多媒体文件,隐写分析技术需要从两个方面着手应对。第一,推出具有良好泛化能力的通用隐写分析算法,以应对从未
信息可视化(InfoVis)是文本数据挖掘的一项重要研究方向,也是人们从单一的信息数据中获取有用知识的一种重要途径。而数据挖掘正是从大量数据中提取潜在的,对使用者有价值意
近年来,现代工业过程的规模日趋大型化,过程的工艺也日趋复杂化。工业过程的大型化和复杂化使得系统面临的风险越来越大,系统发生故障的概率也越来越高。由于系统的高复杂化,使得
随着计算机技术、通信技术的快速发展,且日趋紧密地互相结合,作为数据处理的新兴技术——数据融合技术,在近10年中得到惊人发展,该技术已应用于诸多军事领域及民事领域。数据
目前的互联网流量中充斥着各种数据,其中一大部分是近十年兴起并迅速发展的对等网络(Peer-to-Peer)应用。因此对于P2P业务的流量控制和管理在网络管理中显得尤为重要。P2P流
视觉传感器网络中的视觉节点感知模型为有向感知模型,节点视野受限,因此我们部署的节点不应是静止的,一般节点分为如下三类:可移动,可旋转以及既可以移动又可以旋转。对于这
认知科学的研究表明,感知信息对自然语言习得有重要的辅助作用。由于机器不能独立地把词汇和感知世界进行关联,因此出现了Grounded语义学,即语言符号和感知符号相连接的研究
尘土是导致电接触故障的重要原因之一。尘土成分包含无机物和有机物两部分。研究尘土中各种成分对电接触的影响,对于选择合适的材料模拟尘土对电接触的影响具有重要意义。本课题分别以纤维和方解石两种尘土成分作为研究对象,分析尘土密度、正压力、尘土物理特性等因素造成电接触失效的机理。影响纤维对接触电阻可靠性的因素有纤维密度和正压力。静态接触电阻随正压力的增加下降幅度初始很大而后趋于平缓;静态接触电阻随密度增加呈
本文研究了凸优化理论在大规模机器学习中的应用,给出了基于Fenchel对偶理论的核Logistic回归并行分类算法(PDS)以及基于割平面理论的大间隔最近邻分类算法(LMNN_PCA)。KLR的
随着各国经济的发展,工业生产和居民生活所产生的污水越来越多,自然环境受到了严重的威胁,污水的治理已经受到社会各界的热切关注。污水处理过程是一个变量繁多,具有大时变、大时