论文部分内容阅读
信息技术已经渗透到我们社会生活的各个角落,随着网上数据不断的激增,仅仅依靠大脑来收集和整理所需要的信息是显然不够的,为了高效地找到所需要的信息,文档的自动检索显的尤其重要。目前比较成熟的检索模型均采用索引词来表示用户查询和文档,通过用关键词匹配来实现信息检索。而潜在语义索引是近10年来发展起来的一种新的检索模型,潜在语义索引利用了文本中潜在的语义信息来表示索引词和文档,克服了传统的关键词匹配方法产生的同义、多义现象,能够进一步提高查准率。该模型对文献进行检索的查准率比传统的关键词匹配方法高出20%-30%。 本文研究的主要目的是在潜在语义索引模型的基础上进一步的提高检索的性能,克服潜在语义索引模型存在的一些缺点。本文首先利用传递度来量化索引词与索引词间的关联关系,然后利用索引词与索引词的关系矩阵中存在的语义关系对查询向量进行智能扩展。在潜在语义索引模型的基础上提出了一个新的检索模型“查询语义扩展模型”,该模型完全抛弃了复杂的语法分析,利用了语义空间的语义信息,克服了传统的信息检索模型的弱点,能够进一步提高检索系统的性能。此外,本文用Java语言设计并实现了该模型,并对传统LSI模型和查询语义扩展模型的性能进行了实验比较,最后从比较实验中得出了本文提出的查询语义扩展模型取得了更佳的检索结果的结论,从而也证明了查询向量语义扩展模型的确是一种更西南交通大学硕士研究生学位论文第日页有效的扩展模型。