论文部分内容阅读
互联网技术的飞速发展,深刻的影响着人们的生活方式,使人们生活在浩瀚的信息海洋中。然而,面对如此丰富的信息,却很难真正满足我们的需求。纵观互联网上的信息,具有如下特点:(1)信息资源丰富,内容多样性;(2)信息表现形式多样化;(3)信息具有交互性和关联性;(4)信息组织的局部有序性与整体无序性。这些特点使得互联网中出现“信息爆炸”。传统的信息检索方式主要是基于关键字的匹配检索,这种检索方式的优点是可以为用户提供一条方便快捷地检索到所需信息的途径,虽查全率较高,但查准率较低,使得用户将大量的时间耗费在排除无关信息上。在“信息爆炸”的今天就需要以尽可能少的花费检索到较为精确的信息,因此,提高查准率的需求尤为强烈,而这就必须将信息检索提高到基于知识(或概念)层面,必须基于语义层面组织和表示信息,设计合理的智能信息检索系统。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来引起了国内外众多科研人员关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。将本体理论引入到信息检索系统中,真正实现语义层的检索,在查全率和查准率两方面都能得到较大程度的提高。以本体为基础的语义查询技术正得到了越发广泛的关注与应用。本文首先阐述了本体相关理论、OWL本体描述语言以及本体在语义检索系统中所起到的作用;随后介绍了目前已有的本体构建方法,并借鉴已有本体构建方法,提出了灵活可行的领域本体构建方法,在此基础上构建了医药领域本体;之后主要研究了惠普实验室开发的语义Web应用系统开发工具Jena在实现语义检索系统中的作用。针对传统的基于关键字匹配的信息检索系统存在的不足,本文提出了一种基于本体的语义智能检索的系统框架,并在此基础上针对本文已构建的医药领域本体设计了基于本体的语义智能检索系统。系统通过利用Jena对本体进行推理和查询,使检索出的信息具有语义功能,并通过数据库对这些具有语义的信息进一步的持久化。在利用数据库查询过程中,本文采用了Lucene工具包——基于Java检索的全文信息检索工具包。首先,利用Lucene对数据库中的表建立索引,继而对持久化的语义信息进行检索以实现进一步的扩展查询。最后通过系统实验,验证了系统的性能,不仅实现了语义扩充查询,过滤了不相关信息,而且得到更多相关信息,系统在查全率和查准率两方面都有较大提高。目前,已有很多学者致力于研究语义智能检索系统,本文在已有研究的基础上,将本体推理与数据库查询有机结合,尝试为本体在信息检索系统中的应用开拓新的思路。