潜在语义的Markov网络检索模型的研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:pansheng5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术不断发展,人们可方便获得大量信息,但高效的获取信息仍是面临的一个巨大挑战。信息检索是一种有效地获得信息的技术,它能帮助人们从海量信息中迅速找到所需信息。 在检索模型中,由于文档和查询的不确定性,它们之间的词的简单匹配使检索效果低下。图形模型是近年在信息检索领域中研究较多且比较有效的检索模型之一。通过对不确定知识的学习和推理,图形模型引入对检索有利的信息,从而能提高检索效果。贝叶斯网络模型就是一种较好的图形模型,它有着很好的检索性能。然而,贝叶斯网络的边是有向的,使得网络的构造是一个复杂的过程,并且边的有向性缺乏有效语义解释。 针对上述问题,本文提出潜在语义的Markov网络检索模型(LSMNM:Latent Semantic Markov Network Retrieval Model)。Markov网络是一种不确定知识表示和推理有力工具,而且它的无向性易于网络的构造,更好地解释了知识之间的关联。 在本文模型中,通过对文档集的学习,词之间和文档之间的潜在语义被提取出来,从而构造出Markov知识网络,然后,我们利用Markov网络学习到的潜在语义信息进行检索。根据我们的实验结果,LSMNM有较好的适用性,在英文文本检索中表现出很好检索的效果,相比较BM25模型而言检索性能有一定程度的提高。 本文的创新点在于: 1) 提出了潜在语义的Markov网络检索模型。模型对词—文档矩阵进行奇异值分解,提取文档集中的潜在语义信息,然后利用潜在语义信息构造Markov知识网络用来检索。本模型描述性能很强,已有经典模型均可看作此模型的特例。 2) 我们验证和分析了潜在语义的Markov网络检索模型的检索性能,对该模型与其它常用检索模型的性能做了比较,并且分析了模型中的参数的取值变化对模型检索性能的影响。实验同时说明本模型中的潜在语义能很好地刻画文档集中真正的语义关联。
其他文献
随着TB量级的计算技术与通信技术的发展,TB量级的存储技术成为必然。人们对数据存储与读取速度的要求也越来越高。为了满足这些要求,出现了多种网络存储架构。存储局域网(SAN
随着社会的进步和科学技术的迅猛发展,我们已逐渐迈入以自动化和信息化为平台的智能化社会。智能小区是近年来产生并迅速崛起的一种新型住宅群,它为住户提供了一种更加安全、
随着Internet的飞速发展,各种异构数据交换越来越频繁,XML(eXtensible Markup Language)作为一种Internet上主要的数据表示和交换标准之一,应用范围非常广泛,如电子商务、Web
数据库技术的逐渐成熟、网络技术的迅速普及和计算机硬件的不断出新,使人们采集数据的能力得到了极大的提高,从而导致了全球范围内数据存储量的急剧增大。为增强人们对这些海量
缓存技术和预取技术是解决Web访问延迟问题的主要方案。虽然缓存技术在互联网上有着非常广泛的应用,但是单纯的缓存机制只是利用WWW的访问模式的时间局部性,对于未曾访问过的内
在光盘系统中,通道编码方法对于通道性能有很大的影响,是光盘标准制订过程中需要重点考虑的因素之一,也是光盘标准中知识产权关注的要点,因此一直都是国内外研究的焦点。游程
随着语义Web的迅速发展,语义Web中的信息量呈现爆炸式的增长趋势,如何从海量信息中快速、准确的获取有用信息成为一个热门课题。RDF(Resource Description Framework,资源描
智能视频监控是利用计算机视觉和图像处理的方法对摄像机拍下的图像序列进行自动分析,实现对场景中运动目标的定位、识别与跟踪,并在此基础上对目标的行为进行分析与判断,从
3G的蓬勃发展和4G的悄然到来,无论是个人还是企业团体,都越来越深入地走进了现代信息化的生活,基站作为支持信息传播最基本和最重要的硬件,同样遇到了挑战。基站具有数量多、
近年来,随着互联网和搜索技术的进一步发展,仅仅对于网页文本的搜索已经无法满足人们的需要,对于多媒体特别是语音数据的检索已经成为当今研究的热点问题,也是未来几年中互联