论文部分内容阅读
模式匹配技术在当今已经成为众多领域的研究热点,如:数据集成,数据仓库,数据挖掘。其作用是为异构数据源提供两个或多个模式间的元素(属性)间对应关系,关键是如何寻找两个元素间的语义对应关系。模式可以具有不同的结构、定义、命名方式,所以要寻找对应关系通常需要从多方位发掘匹配,采用多匹配器相结合的方式,如:结构匹配器,实例匹配器,基于约束匹配等。而且对于不同的领域匹配器的构造通常也有差异,另外目前仍没有一种模式匹配技术是全自动化的,或多或少需要人工干预。通常来说,采用何种匹配器以及匹配器采用何种技术来实现需要根据应用背景来考虑。所以模式匹配过程较为复杂,但是如果能较大程度的减轻人工劳动强度提高生产效率,也是非常有价值的。本文以对等网络(Peer-to-Peer)的数据共享为应用背景来考虑模式匹配的作用及实现。P2P是一种不同于传统网络的新型结构,其特点是:网络中的任何一个节点都是关系平等的,节点既可以提供资源也可以请求资源,也可以随时键入网络或退出网络。P2P系统的结构众多,不同的拓扑结构使节点具有不同的服务方式。本文通过详细的研究和分析,选取了以Super-peer结构为基础作为研究对象。本文的重点研究内容分两部分:1)构造一种新的基于Super-peer的拓扑结构,研究模式匹配对其作用。2)根据上述结构,提出一种基于实例的模式匹配方法。对于问题1),本文提出了一种基于域主题划分的二重超级节点结构。不同于常规的模式匹配技术,P2P环境下的模式匹配具有其特殊性:1)P2P环境必须具有可扩展性(scalable),节点可以随时加入、离开网络。如何考虑在这种动态环境下新加入的节点或退出节点与网络中其它节点的模式关系。2)在数据共享背景下以节点的信息查询为例,什么样的Super-peer结构才具有最佳的查询效率,也就是超级节点和普通节点的结构关系。这些问题在文中都有详细的研究。对于问题2),首先详细分析了模式匹配对于P2P的数据共享的作用,这也是本文重点研究内容。其实,目前的大多数相关研究中都使用了模式匹配技术,但是其重点都是研究如何改进查询路由或查询算法,而没有注重模式匹配这一点。本文通过假设模型提出:如果模式中的元素具有语义对应关系,那么这两个元素具有相同的重要性。通过RF多决策树算法和RBF分类器对提取属性特征,寻找属性在模式中的位置,进而构建最小距离函数判别属性是否具有对应关系。该思想非常适合于P2P环境下,因为它具有以下特点:1)通过多决策树方式产生精确的匹配器。2)可以处理大数据量和数据的可变性。3)域元数据表适应对于新加入的节点或者退出的节点所导致的数据变化。最后,在文中通过UCI数据集实验证明了该方法的匹配效果。