论文部分内容阅读
当前海量的数据存储在不同数据库管理系统中,但由于绝大多数数据源间的异构性,形成了所谓的“信息孤岛”。为了消除异构、检测数据的异常、提高信息综合利用率和准确率,本文提出了一种基于Web Service数据集成系统和基于神经网络解决该集成系统中属性匹问题。与传统集成方法相比,Web Service数据集成方法优化了传统集成方法,整个系统具有实时性、可扩展性、高响应性等特点。数据集成的核心问题是正确实现语义映射关系,即模式匹配,具体到关系数据库中,就是在异构数据库间找出相同的属性记录。属性匹配是解决数据源间异构问题的关键性操作。本篇论文在研究了目前已有的数据库集成的属性匹配技术的基础上,发现基于机器学习(BP神经网络)的方法比起基于规则的方法在属性匹配问题上有绝对的优势。但是研究发现,目前基于BP网络的属性匹配方法仍然存在着诸多不足,如干扰匹配项过多,匹配空间过大等等。针对目前方法的不足,本文从提高匹配效率、匹配查准率、匹配查全率三个重要指标出发,重点提出了基于BP神经网络的新的属性匹配算法—分类双向过滤法。最后,本文在具体数据库环境中,通过实验对分类双向过滤的匹配算法进行了验证。对比分析实验结果,证明了分类双向过滤法能有效提高属性匹配的各项性能—匹配效率、查准率和查全率,表明了该属性匹配算法的优越性。