数据集成关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wxiaof
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前数据转换在功能、效率、以及支持自动转换等方面存在不足,作者对转换方法、数据转换的优先次序算法、XML与关系模式之间的自动转换算法等进行了研究.在数据清理方面,作者研究了重复记录的识别算法、基于模糊理论的等值理论以圾人工交互的便利性等问题.在操作方面,数据立方作为一种能有效分析数据的集成系统得到了广泛的应用,因此作者对数据立方的范围查询问题进行了研究.在结合前人研究成果的基础上,探讨了基于国产数据库DM4的集成工具DMCleaner的系统设计.作者首先研究了从一种关系模式到另一种关系模式的转换,提出了两阶段转换的方法,并给出了该方法基于XML的算法实现.传统转换工具采用一个阶段完成转换工作,不能直接实现复杂的诸如多表聚集等功能的转换,需要用户编程,缺乏重用性.该方法采用两个阶段实现数据转换,通过指定第一阶段的操作将数据转换到一个中间模式,然后通过指定第二阶段的操作实现从中间模式到最终目的的转换,能有效支持聚集操作.为解决有外键约束存在时由于转换次序选择不当导致的转换失败问题,提出了转换优先次序算法.在关系模式到XML模式的转换方面,分析了FT、NeT、CoT算法,并提出了简化算法,通过将属性集快速分解为非关键字列集和关键字列集的方法,能够快速得到和NeT算法同样的结果,避免了费时的nest操作,因此提高了关系模式到XML模式的转换速度.在XML到关系的转换方面,基于正则树语法的转换算法存在生成的关系数目过多的缺点,作者通过限制元素生成的关系数的方法,减少了关系的数目.在数据清理方面,作者首先深入研究了重复记录识别算法,将模式匹配算法引入到数据清理的记录内算法中,对其进行了分析和改进,并提出了一些新的算法.在集成系统的操作上,作者研究了数据立方的范围查询技术,提出了基于最末分支节点LBN的相关前缀和算法,更新速率有较大的提高,在整体上提高数据立方查询更新的性能的同时节省了空间,并且使数据立方具有了一定的结构独立性.最后,作者在前人的基础上结合自己的研究成果,提出了基于DM4的数据集成工具的系统设计方案.
其他文献
本文对企业管理相关领域和软件工程方法进行了研究,并结合自身在企业信息系统开发过程中的实践,提出了以BPR和复用驱动的EIS开发方法。该开发方法的主要特色与创新点如下:1)在El
本文为作者在企业博士后期间一些主要研究工作的报告,主要为数据仓库和商务智能项目过程研究方面的内容.商务智能已经成为企业创造更多盈利的关键,商务智能将是下一个热点,数
随着通信技术的发展,无线通信环境日益复杂,在较宽的频带上通常存在着采用不同调制方式调制的通信信号。如何有效地识别这些信号,在军事和民用领域都具有重要的应用前景。如在电
要实现新开发的设备驱动程序在多个操作系统下的可重用性,需要构建驱动开发环境以屏蔽各种操作系统对驱动的差异性。本文提出并设计了一种驱动封装层来达到这个目标。驱动封
本文首先对当前计算机网络的安全问题进行了简单介绍,分析了在网络安全体系中引入入侵检测技术的必要性,并介绍了入侵检测的一些基础知识,详细分析了已有的各种分布式入侵检
构建分布式多层系统的三种主流组件技术分别是:COM/DCOM/COM+、CORBA和EJB。这些组件技术都是客户/服务器模式的,只能将数据移动到计算端,存在对象功能单一,网络适应性差等不
在网络技术发展日新月异的今天,移动代理技术凭借其出色的自治性和移动性,成为继CORBA、EJB、DCOM之后的新一代分布式处理的关键技术。国内外众多研究机构都在积极寻求移动代理
鉴于目前在主干网络中存在大量的IPv4设施,我们建议IPv6的部署首先从边缘接入网络开始,结合WLAN技术和移动IPv6,实现一个个移动IPv6的孤岛,逐步向纯IPv6环境过渡.在这个过渡
WWW的出现导致网站上的文本成指数级增长,因此如何自动处理这些海量联机文本成为目前重要的研究课题。自动文本分类是文本信息处理中的一个重要环节。 本文研究文本的自动
逆向工程技术是目前CAD领域研究的重点问题之一.由于逆向工程技术可以处理目前商业CAD系统难于处理的大规模测量数据造型问题,因此受到CAD系统厂家、用户的广泛重视.由于逆向