论文部分内容阅读
Internet的飞速发展为人们提供了极其丰富的信息资源,然而海量信息的管理和检索却变得越来越困难。语义网技术的出现,正是为了有效解决这些问题。语义网技术通过扩展现有互联网,在信息中加入语义内容,使计算机可以自动与人协同工作。作为语义网中知识语义元数据的载体,本体成为了语义网的核心元素。本体是对应用领域概念化的形式说明,它为某个领域知识提供了一个共享通用的解释,使得人和应用系统之间都能够有效地进行语义上的理解和通讯。本体建造是一个非常复杂的过程,它需要众多领域专家的参与。虽然目前本体工程(OntologyEngineering)工具已经较为成熟,但是这些工具提供的仅仅是本体编辑功能,支持的仍然是手工构建本体的方式。由于手工的方法费时费力,使得本体的构建成为一项繁琐而艰巨的任务。本体的构建已经成为知识获取的瓶颈,严重制约了语义网的发展。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向,本体学习技术应运而生。本体学习的目的就是利用机器学习和统计等技术自动或半自动地从已有的数据资源中获取期望的本体。
本文针对本体学习涉及的关键问题,对概念、实例和关系的抽取进行了研究与分析,主要工作和特色如下:1)针对本体概念、实例抽取问题,在框架语义理论的研究基础上,通过语义分析获得句法语义关联结构,利用该结构提取出不同语法上下文环境中具有语义关联特性的词条;通过词条所处框架语义环境及语义角色关系的分析,确定未知概念与实例的正确本体归属。作为半自动方法,通过实验证实方法对于概念、实例抽取,具备可接受的结果;
2)针对本体关系抽取问题,通过框架语义分析方法,在语义层次分析句子成分与相应框架语义角色之间的联系,采用框架及框架语义角色结合的方式对不同句子成分对应本体概念之间的关系进行标注。此方法不仅可以发现不同概念之间的可能关系,同时又为此关系的标注提供可能建议。通过试验,验证了方法的理论有效性;
3)在相关本体学习方法理论基础上,设计并初步实现了FraSEOL半自动本体学习原型系统,采用传统方法与本文所述基于语义分析方法结合的方式进行本体学习。针对上述方法的设计,在此系统上进行相关实验。