论文部分内容阅读
目前数据转换在功能、效率、以及支持自动转换等方面存在不足,作者对转换方法、数据转换的优先次序算法、XML与关系模式之间的自动转换算法等进行了研究.在数据清理方面,作者研究了重复记录的识别算法、基于模糊理论的等值理论以圾人工交互的便利性等问题.在操作方面,数据立方作为一种能有效分析数据的集成系统得到了广泛的应用,因此作者对数据立方的范围查询问题进行了研究.在结合前人研究成果的基础上,探讨了基于国产数据库DM4的集成工具DMCleaner的系统设计.作者首先研究了从一种关系模式到另一种关系模式的转换,提出了两阶段转换的方法,并给出了该方法基于XML的算法实现.传统转换工具采用一个阶段完成转换工作,不能直接实现复杂的诸如多表聚集等功能的转换,需要用户编程,缺乏重用性.该方法采用两个阶段实现数据转换,通过指定第一阶段的操作将数据转换到一个中间模式,然后通过指定第二阶段的操作实现从中间模式到最终目的的转换,能有效支持聚集操作.为解决有外键约束存在时由于转换次序选择不当导致的转换失败问题,提出了转换优先次序算法.在关系模式到XML模式的转换方面,分析了FT、NeT、CoT算法,并提出了简化算法,通过将属性集快速分解为非关键字列集和关键字列集的方法,能够快速得到和NeT算法同样的结果,避免了费时的nest操作,因此提高了关系模式到XML模式的转换速度.在XML到关系的转换方面,基于正则树语法的转换算法存在生成的关系数目过多的缺点,作者通过限制元素生成的关系数的方法,减少了关系的数目.在数据清理方面,作者首先深入研究了重复记录识别算法,将模式匹配算法引入到数据清理的记录内算法中,对其进行了分析和改进,并提出了一些新的算法.在集成系统的操作上,作者研究了数据立方的范围查询技术,提出了基于最末分支节点LBN的相关前缀和算法,更新速率有较大的提高,在整体上提高数据立方查询更新的性能的同时节省了空间,并且使数据立方具有了一定的结构独立性.最后,作者在前人的基础上结合自己的研究成果,提出了基于DM4的数据集成工具的系统设计方案.