论文部分内容阅读
随着Internet技术的发展,人类已经步入信息时代。信息发布的自由化和信息提供的简单化,促进了WWW的繁荣。然而随着网上数字化信息量的日益庞大,WWW上大量分布的无结构和半结构化数据日益加剧了信息检索的困难度。因此如何快速准确的检索相关信息已经成为当今信息领域的研究热点。由于信息发布的自由化,人们将信息发布到网上时,针对同一领域的知识点,不同的信息发布者所使用的特征词或关键字可能不径相同;再加上用户在搜索信息时,大多数人仅仅是输入一个关键字进行搜索;这两种情况的存在又增加了在网上搜索到用户所需信息的难度。在这种情况下,本文的研究以如何能使用户通过搜索引擎得到更好的可用信息为目的,构建了基于本体和互信息的查询语义扩展模型(QSE_OMI)。本文的研究工作主要包括以下几个方面:1、研究如何将互信息与查询语义扩展相结合。互信息是用来表示两个单词之间关联程度大小的量度;同时,查询语义扩展是将用户输入的查询关键字进行领域相关的扩展。本文在分析和讨论了这两种理论之后,给出了如何将这两者结合在一起,并创建了查询语义扩展子模型,对其进行了讨论和研究;2、本文还对本体和互信息的优势分别进行了阐述,并利用其各自的特点及优势,提出将二者结合在一起,形成优势互补,使查询语义扩展能深入到语义理解层次,能更进一步地抑制盲目扩展而带来的信息冗余;3、在上述工作的基础上,论文设计并实现了实验系统QSE_OMI。实验系统运行情况及实验结果表明,基于本体和互信息的查询语义个性化扩展能较好的对用户查询问句关键字进行领域相关的扩展,并在检索结果的查全率和查准率上有一定的提高。本文的研究对QE的相关理论有一定的促进作用,同时我们所研究的QSE_OMI可在支持用户个性化检索的同时,进行语义层面上的扩展,这对查询扩展优化这方面的研究有一定的推动作用。