基于MapReduce的大规模本体匹配方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:kkkk8043
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义Web的快速发展,有越来越多的语义Web本体被发布出来。然而,语义Web的分散性导致异构本体的产生,即存在不同的本体包含同义的类、属性和实例。本体匹配旨在发掘不同本体之间映射关系,为消除本体的异构性提供一种有效的途径。但是,传统的语义Web本体匹配方法无法应对大规模本体匹配问题。一些研究者尝试通过简化匹配算法和本体划分减少计算耗时,但并没有突破单机计算能力的局限性。事实上,大规模本体匹配问题可分为两大类。一类是大型本体匹配问题,即参与匹配的每个本体都具有较大的规模;另一类是大规模多本体匹配问题,即每个本体的规模不大,但参与匹配的本体数量较多,使得所有本体的总规模较大。近年来,分布式计算框架MapReduce引起了研究者的关注。MapReduce通过key-value的键值组合机制将复杂计算任务分配到不同的节点。本文使用MapReduce框架处理大规模本体匹配问题。本文的主要贡献包括以下两个点:(1)基于MapReduce的大型本体匹配。本文提出一种基于MapReduce框架和虚拟文档相似度的本体匹配方法,对两个大型本体进行匹配。该方法利用了MapReduce框架的三个特性,即数据项连接、图遍历和数据划分,并将这些特性与虚拟文档相似度技术相结合。本文将该方法命名为V-Doc+。该方法分为三个MapReduce阶段。首先,命名实体(类、属性和实例)、空白结点与其相关的RDF语句在MapReduce过程中连接,使得命名实体和空白结点的描述信息被构建;接着,本文在MapReduce过程中对RDF图结点做一步广度搜索,使得每个实体与其邻接结点聚合;再者,为了减少匹配计算空间,本文利用一种基于单词权重的划分方法,将具有潜在匹配关系的类和属性分配到同一个MapReduce节点上做相似度计算。实验结果表明本文提出的方法能够在保证精度和召回率的前提下大幅度减小计算时间。(2)基于MapReduce的大规模多本体匹配。与大型本体匹配不同,大规模多本体匹配方法需要在多个本体之间进行匹配。即使单个本体规模不大,这些本体的组合数量使得针对大型本体的一对一匹配方法必须重复运行多次。因此,本文基于MapReduce平台,提出两种针对大规模多本体匹配的并行计算方案。本文通过实验对两种方案进行比较。相比按顺序对本体进行匹配,该方法在计算时间上有大幅度的缩减。
其他文献
纠错技术是保障无线网络可靠通信的重要技术之一。现有的纠错码技术可以在不重传数据的情况下,修复出错的数据位,但由于它具有较高的数据冗余度和计算复杂性,会降低网络的传
“维数灾”一直是小波神经网络研究和应用领域中的一个难点问题,它极大地限制了小波神经网络在高维情况的应用。对此,至今没有一个十分理想的解决办法。本文对RBF网络结构模型
Internet已经进入了以Web2.0为主导的时代,随着Web2.0的普及与发展,博客作为其典型的代表获得了广泛的应用。Web2.0最主要的一个特点就是用户参与网络的互动性大大增加,人们现在
随着传感器技术的不断发展和成熟,传感器网络在众多领域得到了广泛的应用,尤其是环境监测、军事应用、医疗健康、城市交通管理、智能家居等。由于传感器网络应用范围越来越广
无线传感器网络是一种多功能低能耗的无线自组织网络,在军事监控和探测、大气水纹监控、森林火灾预防、山崩预测、大棚灌溉、鸟类观察、跟踪定位等领域有广泛的应用。智能家