论文部分内容阅读
随着网络技术不断发展,人们可方便获得大量信息,但高效的获取信息仍是面临的一个巨大挑战。信息检索是一种有效地获得信息的技术,它能帮助人们从海量信息中迅速找到所需信息。 在检索模型中,由于文档和查询的不确定性,它们之间的词的简单匹配使检索效果低下。图形模型是近年在信息检索领域中研究较多且比较有效的检索模型之一。通过对不确定知识的学习和推理,图形模型引入对检索有利的信息,从而能提高检索效果。贝叶斯网络模型就是一种较好的图形模型,它有着很好的检索性能。然而,贝叶斯网络的边是有向的,使得网络的构造是一个复杂的过程,并且边的有向性缺乏有效语义解释。 针对上述问题,本文提出潜在语义的Markov网络检索模型(LSMNM:Latent Semantic Markov Network Retrieval Model)。Markov网络是一种不确定知识表示和推理有力工具,而且它的无向性易于网络的构造,更好地解释了知识之间的关联。 在本文模型中,通过对文档集的学习,词之间和文档之间的潜在语义被提取出来,从而构造出Markov知识网络,然后,我们利用Markov网络学习到的潜在语义信息进行检索。根据我们的实验结果,LSMNM有较好的适用性,在英文文本检索中表现出很好检索的效果,相比较BM25模型而言检索性能有一定程度的提高。 本文的创新点在于: 1) 提出了潜在语义的Markov网络检索模型。模型对词—文档矩阵进行奇异值分解,提取文档集中的潜在语义信息,然后利用潜在语义信息构造Markov知识网络用来检索。本模型描述性能很强,已有经典模型均可看作此模型的特例。 2) 我们验证和分析了潜在语义的Markov网络检索模型的检索性能,对该模型与其它常用检索模型的性能做了比较,并且分析了模型中的参数的取值变化对模型检索性能的影响。实验同时说明本模型中的潜在语义能很好地刻画文档集中真正的语义关联。