基于实例聚类的数据库模式匹配方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:dragondk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年信息技术的飞速发展使得数据库成为数据管理的重要工具,但由于不同行业和不同部门间描述数据的方式和方法不同,要实现这些大量的异构的数据共享成为了当今数据集成领域广泛研究的热点。数据集成的首要步骤就是要实现模式匹配,即数据模式元素之间的语义对应关系,因此本课题研究模式匹配对于数据挖掘具有重要意义。已提出的模式匹配方法多数是基于模式信息来实现的,但从评估结果来看任何方法都远远达不到100%的准确率,并且在模式信息不明确或者有冲突的情况下这些方法经常受到限制。通过对现有方法的分析本文提出一种利用模式信息辅助实例信息聚类的数据库模式匹配方法—DSMIC(Database Schema Matching based on Instances Clustering),该方法分为三大模块,即预处理模块、聚类处理模块、映射生成模块。其中,在预处理模块中利用经典的遗传算法对模式信息进行处理生成候选匹配集合;在聚类处理模块中提出一种改进的K-Means聚类算法将候选匹配集合中模式元素的实例数据进行聚类,根据聚类结果计算出模式元素间的相似度;映射生成模块根据模式元素间的相似度生成图论中的完全加权二分图,利用最大权匹配算法提炼出模式元素的最终结果。最后,本文通过实验验证了基于实例聚类的模式匹配方法的可行性,并以此表明该方法在一定程度上提高了模式匹配的准确率、召回率和全面性等技术指标。
其他文献
摘要:商空间理论是国内学者张钹院士和张玲教授在研究问题求解的过程中提出的,现已经成为粒度计算的三大模型之一。该理论将不同的粒度世界与数学上的商集概念统一起来,用一个
随着Web2.0时代的到来,互联网信息呈现爆炸式增长。如何从海量信息中迅速找出用户需要的数据成为了信息检索研究的重点。排序是信息检索系统的重要组成部分,传统的检索模型主
作为一种新的软计算方法,粗糙集理论已广泛应用于知识发现、数据挖掘等领域,但较差的容噪能力使得它在数据分析过程中容易丢失有潜在价值的知识。将标准包含关系扩展为多数包
本文以黑片的边缘检测定位为研究背景,对图像处理中常用的边缘图像检测定位算法Hough变换算法进行研究和改进,主要研究内容包括图像的边缘检测,直线边缘、圆形边缘、圆弧边缘
随着我国信息化技术的深入发展,信息安全日益成为社会关注的重要问题。生物特征识别技术由于自身具有的重要特性,已被广泛的关注和应用,其中虹膜识别技术由于自身的特点(高度
随着工业化进程的不断加深,工业控制设备正在往智能化、网联化和综合化方向不断发展,这对设备的安全性、可靠性和可扩展性提出了新的要求。由于设备在接入网络后必将面临多种潜在的威胁,因此工业控制系统需要采取额外的机制来降低这些威胁带来的影响,至少保证设备的可用性。同时,由于设备的计算能力不断提高,设备提供的功能日益丰富,因此工业控制系统也应具备良好的可扩展性以便扩充其功能。通过对现有内核架构进行分析可知,
学位
与其他传统方法相比,生物技术在个人身份验证和识别方面更有优势,因此近几年来应用到了越来越多的领域。但是,也带来了许多令人担忧的问题。其中,生物识别系统能否被广泛应用的最
智能交通系统是未来交通系统的发展方向,它可以使交通管理更加高效。随着计算机视觉和图像处理技术的不断发展,利用计算机视觉检测识别车辆成为一种特别有潜力的方法。在智能交
随着互联网的普及和电子商务的发展,电子商务系统为用户提供了越来越多的选择,与此同时它的结构也变得愈加复杂,这就会造成用户在大量的商品信息空间中迷失,无法顺利找到自己
随着信息化的不断发展,数字信息呈现着惊人的增长速度,使得大量的数字资源面临着长期保存的难题。当前,数字信息长期保存的研究主要围绕保存元数据、系统架构和迁移等技术机制展