论文部分内容阅读
随着本体作为一种信息的组织形式被广泛的应用到水利[1]、词的组织[2]、交通[3]、艺术[4]等相关的领域中,本体的数目和数量增长的越来越快。由于在初期构建本体的时候,专家不可能或者没有能够形成一个非常好的分类结构,所以对于某些本体来说一个类中就会有非常多的实例,例如Wordnet[2]中有14个类,但是有140000多个实例;Hydrologic Ontology[1]中有5个类,但是有2744个实例。因此,我们提出了OntoOn本体学习工具。该工具可以从实例中学习新的类别,新的概念。通过这个工具,本体专家可以很方便的进行本体库的二次开发。我们的目的就是要设计一个支持海量数据的,灵活的,自适应的,以用户为向导的本体学习工具。本文通过对本体实例特征的研究分析,提出了从本体实例中进行学习的一套合适的设计框架—基于Code系统的OntoOn本体实例学习工具。该方案总共分成四个步骤:1.数据预处理阶段。2.本体特征向量选择阶段。3.本体结构构建阶段。4.本体标签标注阶段。本文就该系统中的一个点,即实例相似性计算问题方面进行了深入的研究。我们发现如果两个实例通过边与相似的实例相关联,那么这两个实例的相似性就比较大。因此,基于以上现实的观察,我们通过实例和实例之间的连接分析,计算两个实例之间的相似度,从而将相似的实例聚集在一起,最终形成合适的本体结构。但是,现存的计算相似度的算法中,SimRank[5]、LinkClus[6],ReCoM[7],FingerPrinted SimRank[8],SimFusion[9]等算法存在着各种各样的问题。SimRank和SimFusion算法计算相似度很准确但是时间上面消耗太长了,计算了很多不用计算的节点。ReCoM,FingePrinted SimRank算法在时间上有了很大的提高,但是在准确度方面比较差,主要原因就是没有考虑到其他节点对相似性的影响。LinkClus算法在时间和准确度方面都有很大的提高,但是在某些情况下错误的计算了相似度。基于以上这些问题,我们在星型图的基础上提出了S-SimRank算法。实验表明,我们的S-SimRank算法在准确性和效率方面都有很大的改善。