论文部分内容阅读
WWW的迅速增长使得其信息量已经远远超过了个人的信息阅读和理解能力,面对如此众多的信息,人们往往利用基于关键词的检索引擎帮助进行信息的检索,但它只能检索出很小部分的相关信息,且返回结果经常会包含大量的无用信息,这些情况给人们寻找所需信息带来了很大的困难。而基于Ontology(本体)的语义检索作为一种极具潜力的新技术,能够帮助人们解决以上难题,近年来逐渐受到越来越多的关注。
Ontology是语义网(Semantic Web)的重要组成部分,是对信息世界或者领域知识、概念、实体及其关系的一种明确的、规范的形式化描述。Ontology在信息检索,尤其是自然语言检索领域中,能使用户和计算机利用其所提供的知识体系,真实而统一地理解网络文本资源和用户请求,在增强人机交互的同时,将检索从字面匹配层次提升到知识匹配的层次,提高了信息检索的功效。利用对Ontology的处理,能够消除自然语言理解中的歧义,明确概念涵义,并且根据相关概念进行推理,挖掘隐含信息,从而提高检索的准确度和覆盖率。
本文首先介绍Ontology的概念,综述了基于Ontology的语义检索技术的研究现状,并在此基础上构建了一个基于Ontology的语义检索处理框架OSS(Ontology—basedSemantic Search),并描述了其检索的具体过程。为了建立基于Ontology的语义检索系统,本文进一步给出了一种改进的建立Ontology领域本体的方法,并在此基础上讨论了Ontology信息抽取和对网页中的Ontology信息进行语义标引的方法。OSS框架、本体建立、语义标引等三个方面的工作和第三方软件共同构成了一个基于Ontology的语义检索系统实验环境。
本文着重描述了OSS检索处理框架实现的关键技术,详细阐述了该模块中用到的几个关键算法。其中,为了提高系统检索结果的准确度和覆盖率,提出了层次语义扩展检索处理算法;为了减少检索处理的响应时间,设计了检索结果暂存处理算法;为了优先向用户提供符合用户兴趣特征的检索结果,设计了检索结果合并和排序算法。实验证明这些算法在实际的检索过程中取得了比较满意的效果。
本文最后利用对招聘网站上相关网页文档信息检索处理的实例实现了基于Ontology的语义检索实验应用,从而验证OSS在处理方法的可行性。OSS检索处理框架的实验结果与网站上传统检索处理结果相比较,在检索的准确度和覆盖率上都有所提高。