论文部分内容阅读
随着近些年信息技术的飞速发展使得数据库成为数据管理的重要工具,但由于不同行业和不同部门间描述数据的方式和方法不同,要实现这些大量的异构的数据共享成为了当今数据集成领域广泛研究的热点。数据集成的首要步骤就是要实现模式匹配,即数据模式元素之间的语义对应关系,因此本课题研究模式匹配对于数据挖掘具有重要意义。已提出的模式匹配方法多数是基于模式信息来实现的,但从评估结果来看任何方法都远远达不到100%的准确率,并且在模式信息不明确或者有冲突的情况下这些方法经常受到限制。通过对现有方法的分析本文提出一种利用模式信息辅助实例信息聚类的数据库模式匹配方法—DSMIC(Database Schema Matching based on Instances Clustering),该方法分为三大模块,即预处理模块、聚类处理模块、映射生成模块。其中,在预处理模块中利用经典的遗传算法对模式信息进行处理生成候选匹配集合;在聚类处理模块中提出一种改进的K-Means聚类算法将候选匹配集合中模式元素的实例数据进行聚类,根据聚类结果计算出模式元素间的相似度;映射生成模块根据模式元素间的相似度生成图论中的完全加权二分图,利用最大权匹配算法提炼出模式元素的最终结果。最后,本文通过实验验证了基于实例聚类的模式匹配方法的可行性,并以此表明该方法在一定程度上提高了模式匹配的准确率、召回率和全面性等技术指标。