基于潜在语义索引模型的查询语义扩展模型

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:chenchenhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术已经渗透到我们社会生活的各个角落,随着网上数据不断的激增,仅仅依靠大脑来收集和整理所需要的信息是显然不够的,为了高效地找到所需要的信息,文档的自动检索显的尤其重要。目前比较成熟的检索模型均采用索引词来表示用户查询和文档,通过用关键词匹配来实现信息检索。而潜在语义索引是近10年来发展起来的一种新的检索模型,潜在语义索引利用了文本中潜在的语义信息来表示索引词和文档,克服了传统的关键词匹配方法产生的同义、多义现象,能够进一步提高查准率。该模型对文献进行检索的查准率比传统的关键词匹配方法高出20%-30%。 本文研究的主要目的是在潜在语义索引模型的基础上进一步的提高检索的性能,克服潜在语义索引模型存在的一些缺点。本文首先利用传递度来量化索引词与索引词间的关联关系,然后利用索引词与索引词的关系矩阵中存在的语义关系对查询向量进行智能扩展。在潜在语义索引模型的基础上提出了一个新的检索模型“查询语义扩展模型”,该模型完全抛弃了复杂的语法分析,利用了语义空间的语义信息,克服了传统的信息检索模型的弱点,能够进一步提高检索系统的性能。此外,本文用Java语言设计并实现了该模型,并对传统LSI模型和查询语义扩展模型的性能进行了实验比较,最后从比较实验中得出了本文提出的查询语义扩展模型取得了更佳的检索结果的结论,从而也证明了查询向量语义扩展模型的确是一种更西南交通大学硕士研究生学位论文第日页有效的扩展模型。
其他文献
Grothendieck定理说明Banach空间X中紧集K有如下特征:存在收敛到零的序列(xn),使得K(C)(co)(xn).最近,P·N·Dowling等人对于弱紧集给出了一个类比刻画:对Banach空间X中任一弱
本文根据系统动力学原理,结合经济学及数理统计,以南宁市的人口、就业、住宅为三个互相作用,互为因果的子系统,建立起南宁市区协调发展的数学模型,用MATLAB的Simulink构建相应的计
Geigle-Lenzing在[28]中引进了赋权射影线的概念,并研究了赋权射影线上的凝聚层范畴,证明了在凝聚层范畴中存在倾斜对象,即canonical倾斜层,其自同态代数为与赋权射影线同型的can
由于我国复杂的地质环境,长隧道施工难度较大,在隧道开挖与支护的实际施工过程中,需要根据工程实际情况,制定一个合理的施工方案,对施工中的难点问题提出相应的解决方法,严格按照标
本文首先讨论了椭圆曲线密码体制ECC(EllipticCurveCryptosystem)中的点压缩问题.在Fp上的椭圆曲线存在标准的点压缩技术,使得仅需原来一半的比特数来表示ECC中的点.由于
本文采用分而治之(Divide-and-Conquer)的思想,将复杂大问题分解为一系列简单小问题。首先将大样本集分解成若干个工作子集,在每个工作子集上抽取支持向量,集成各支持向量,并根据