论文部分内容阅读
在当今信息时代,依托于互联网的迅猛发展以及Web数据量爆炸式的增长,通过分析数据能够获得更多有价值的信息,进行Web数据分析之前的一个主要任务就是将不同来源的Web数据进行数据集成。由于大量的数据来源于不同的发布者,在Web网络上,即使针对同一领域,很多的发布者也都是相对独立的进行信息发布,为面向领域的Web数据集成带来了前所未有的挑战,Web数据集成变得尤为重要。Web数据集成具有以下特点:具备大量的数据来源,在同一个领域,Web数据源也成千上万,造成同一领域下的数据量非常庞大;很多不同的数据源之间都是异构的,但是它们的数据内容又有很多都是相似的;数据源各自的数据质量是有差异的,进行数据集成的过程中容易遇到很多数据重复和冲突的情况。针对这些特点,在Web数据集成中涉及到的主要问题包括:根据不同网站数据建立相应的Web数据模式和领域集成数据模式,针对Web数据模式和领域模式进行模式映射,以及在集成数据的过程中进行实体匹配。对于以上问题,目前的研究工作大多是独立地进行,本文在此基础上进·步把各部分的研究进行了结合。本文针对以上特点与所面临的问题,分别对数据集成中的模式层和实例层进行了研究,在模式层上主要研究了模式的建立和映射,在实例层上主要研究了实体匹配中的分块和匹配两个任务。研究中结合了实验室实际项目数据,通过实验分析论证了本文研究的成果。主要研究内容和相关工作如下:(1)针对模式层,介绍了面向领域的Web数据集成架构,该架构反映了从Web数据抽取到Web数据集成的结构中,各个组成部分之间的关系;建立了 Web数据模式与Web数据模型,以及领域数据模式和领域数据模型,以便为不同来源的数据设立统一的集成模式;提出Web数据模式与领域数据集成模式的模式映射方法,并由此建立了数据集成规则,用于解决数据集成过程中的Web数据模式与领域集成模式之间的冲突问题。(2)针对实例层,介绍了实体匹配分块方法的复杂度比较,引入最优分块方法来对实体进行分块,减少了实体匹配的搜索空间;针对Web领域实体不断产生和变化的情况,根据二阶Markov逻辑网给出实体匹配规则模型,基于该模型提出匹配函数提取算法,结合了最优分块策略,并在块内利用实体间隐含的关系来进行匹配,解决了实体匹配中实体和属性不断更新所造成的不确定性问题;引入随机森林,设计了基于随机森林的实体匹配算法,用于与基于二阶Markov逻辑网的实体匹配进行比较。(3)实验证明,提出的模式映射方法以及数据集成规则能有效地应用于领域数据集成;给出的规则模型和算法降低了实体匹配的匹配复杂度,提高了匹配精确率,同时具备良好的可扩展性;基于随机森林的实体匹配模型在精确度上稍微低于基于二阶Markov逻辑网的实体匹配模型,主要是由于二阶Markov逻辑网融入了实体之间的联系来进行实体匹配;基于二阶Markov逻辑网规则模型以及随机森林分别提出的DNF函数生成算法,能把算法2融入到各自的实体匹配流程中,提高了实体匹配的效率。