论文部分内容阅读
Web上的信息增长,使得搜索技术成为了Web上最广泛的应用。现有搜索引擎的效果并不能完全令人满意,其查全率和查准率还尚待提高。语义Web的出现,为改善搜索技术提供了新思路。研究语义搜索技术,将语义Web技术应用到搜索引擎中,紧密融合检索与推理,改善当前的搜索效果,以期最终进化成下一代语义Web上的搜索引擎。目前,国内外对语义搜索的研究还处于个案处理的初步阶段,并未形成一种通用的方法,在综合阅读国内外相关参考文献及分析研究现状的基础上,对语义搜索进行了分类研究,根据本体技术在语义搜索中的作用,将当前的语义搜索研究分为三类,分别是基于传统搜索的增强型语义搜索、基于本体推理的知识型语义搜索及其他形式的语义搜索。已提出的系统有的只利用了传统的信息检索功能,有的只能提供形式化的查询,并不存在能较好融合两者功能的系统,实现的推理服务处于初步尝试过程中,目前也不存在较为成熟的基于语义的结果排序方法。对语义搜索模型,语义搜索推理及关联关系结果排序等方面进行了深入的研究。传统的搜索技术对于结合检索与推理的语义搜索有许多可借鉴的经验。但并不能完全适用于语义搜索。在传统搜索技术的基础上,提出了一种语义搜索模型,该模型以向量空间模型为基础,融合改进的布尔模型,将推理和检索紧密结合起来,能更好的获取用户查询的语义信息。将该模型应用到安全访问控制领域,基于RBAC安全领域本体,实现安全的访问控制,达到扩展搜索能力的目的。相对于传统搜索而言,语义搜索在查全和查准方面有一定的提高,同时语义搜索可以实现较关键字查询更复杂的关联关系查询,因融入了推理而具有相应的智能性。推理是实现语义搜索的基础,描述逻辑已经成为了语义Web的逻辑基础。描述逻辑本身还存在一定的局限性,其表达能力和推理功能需要进一步扩展。结合规则与描述逻辑是目前看来较可行的解决方法之一,引入SWRL实现对本体规则的描述能力。基于此,提出了一种将特定缺省规则转换成描述逻辑Abox实例的推理算法,该算法针对特定缺省规则的改变通常不影响Tbox的情况,将缺省规则映射成为Abox中实例的变化,简化了推理过程,同时保持描述逻辑推理的可判定性,具有较好的可行性,并通过推理实例验证了该算法的有效性。目前语义搜索中推理的实现大多基于正向演绎推理,效率较低,将描述逻辑推理在语义搜索中实现,提高搜索效率,是语义搜索实现的基础。比较了目前通用的推理机,以pellet为基础,采用优化后的Tableaux算法,结合特定缺省规则,实现了语义搜索中的推理,相对一般基于RDF的三元组正向演绎推理,具有更好的推理效率。提供本体解析、添加缺省规则及本体推理功能,在一定程度上提高了机器理解的能力,可满足语义搜索中的推理需求。关联关系搜索发现实体之间的复杂关系,随着语义网资源的迅速增长,对象之间关联关系的数量可能会超过对象本身,对关联关系进行排序已经成为语义搜索关注重点之一。影响关联关系排序的因素较多,涉及到统计学、链接分析、社会网络和词法等相关技术。针对最常见的路径关联关系,确定了其中最重要的三种影响因子,分别是领域相关度、语义关联长度和语义关联频度,并提出了影响因子的权值计算方法,在此基础上提出了一种语义关联关系排序方法,该方法可将用户真正需要的语义关联关系优先返回。基于上述理论和实验研究成果,研制和开发了一个Smartch语义搜索原型系统,主要功能涵盖了基本搜索、概念搜索、图形化定制搜索和关联关系搜索等方面,并通过系统的试验,给出了性能分析与评价。