论文部分内容阅读
互联网规模的空前扩大和数据量的急剧增加加大了人们获取信息的难度,同时也造成了大量的垃圾信息充斥着当今的网络。如何迅速地、高效地检索和访问各个领域的信息资源已成为一个亟待解决的重要问题。基于此,Berners-Lee提出了下一代Web的发展方向——语义Web,其目标是使Web上的信息能够被机器理解,从而可以更加高效地检索所需要的信息。RDF(Resource Description Framework,资源描述框架)是语义Web的重要组成部分,作为一个通用的元数据模型标准,它使得语义Web上的语义检索成为可能,并被广泛地应用于语义Web的各个领域。随着RDF的广泛应用,对RDF本体的查询要求也越来越高。在RDF本体查询中,一方面,随着RDF本体数据规模和复杂性的增加,要求大量普通用户了解本体的结构和内容已不现实,在这种情况下即使用户明确其查询意图,仍有可能返回过少甚至空查询结果;另一方面,不同的用户对同一种事物可能存在不同的描述,一义多词(同义词)以及外文词形变化(例如:时态和单复数)等现象普遍存在,这些都是目前RDF本体查询中无法避免的问题。此外,查询处理后可能面临多查询结果问题,此时希望系统能够对查询结果自动进行排序或分类以避免信息过载,返回与初始查询在语义上相关的查询结果。针对以上情况,本文提出了基于语义距离的RDF本体查询方法。针对返回结果为空或少量和一义多词的情况,提出了查询松弛和同源词替换相结合的方法,通过RDFS的蕴含规则对初始查询进行松弛,进而选取合适的松弛查询进行同源词替换来得到更多的查询结果。针对要求返回与初始查询在语义上相近的结果的情况,本文提出了语义距离的概念,通过语义距离的计算从而选取与初始查询在语义上相近的结果。在上述查询策略以及语义距离的基础上给出了查询算法,并实现了一个简单的原型系统,通过实验验证了本文提出的基于语义距离的RDF本体查询方法的可行性,并与现有的RDF查询方法进行了比较,证明了本文所提出的方法在查准率以及查全率上均具有一定的优越性。