论文部分内容阅读
随着互联网的发展,许多应用开发中会遇到数据分布在不同的地点的情况,而且这些数据存在着异构性,因此开发应用需要对这些分布式的异构数据进行有效集成。同时由于在这些数据的基础上已经开发了各种应用系统,所以在对数据进行集成时要求不能影响已有的系统。数据集成的目的是实现对分布式异构数据的有效集成和透明访问,而不改变原有的数据。数据集成中数据提供者希望能方便地将数据发布出去供集成,并要求保证自身数据源的安全性,数据使用者希望通过数据集成能透明访问需要的数据,而不必了解太多的细节。由于XML的可扩展性、结构性以及平台无关性的优点,XML迅速成为Internet上数据交换的标准。基于XML的数据集成不仅成为现在研究的热点,也成为数据集成的一个理想的解决方案。在数据集成领域,将查询重写成数据源模式上的子查询是数据集成系统中非常关键的一步。针对数据集成系统中要解决的关键问题,本文所做主要工作如下:(1)研究了基于XML的数据集成问题。首先介绍了XML及相关技术、查询重写算法,数据集成系统结构。其次综合研究了数据集成的一些基本知识。如:集成系统理论知识,基本映射方案,查询处理。(2)针对查询重写过程中的模式转换问题,提出了一种全局模式与源模式的转换算法。以XML为基础,通过定义查询语言和映射语言,模式匹配分解,生成映射规则集合,用映射规则替换全局查询最终生成子查询。子查询通过包装器转换为针对具体数据库的原查询。(3)针对传统的数据集成系统已经远远不能适应人们获取数据的需求,它们在动态的添加或删除数据源方面、支持异构数据源方面及根据用户的需要发布服务方面存在不足。提出了一种以XML为数据交换格式,使用XMLSchema建立公共模型,Mediator集成模式的异构数据集成中间件HDAIM设计和实现方案,通过在分布式环境下建立一个公共的集成环境,屏蔽了各个异构数据源的平台、系统环境、内部数据结构等方面的异构性,对它们进行无缝连接,为用户提供一个统一和透明的访问接口,实现了对异构数据源间关联数据的访问和发布。通过一个学生信息查询系统的实验模式对本文的算法和集成系统进行了验证,验证了可行性和正确性。最后提出了今后进一步研究和改进的内容。