论文部分内容阅读
数据挖掘是当前KDD中的一个重要领域,而关联规则的挖掘是数据挖掘的一个重要组成部分。Internet/Intranet的高速发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大量的分散数据不可能集中起来处理。分布式关联规则的挖掘就是在这样的背景下提出的。本文在分析和介绍了关联规则挖掘的基本概念和方法以及分布式关联规则挖掘方法和技术基础上,提出了中心结点结构的分布式关联规则挖掘的算法(C-DMA),分布式多层概念的关联规则挖掘算法,以及分布式元学习可变精度关联规则的挖掘算法;并且,在分析和研究了分布式关联规则挖掘中常见的数量型关联规则、关联规则的兴趣度问题的基础上提出了数量关联规则的聚类划分方法以及兴趣度过滤方法。本文的主要工作和结论如下:(1)对于分布式关联规则挖掘问题,目前的主要算法是CD算法和FDM算法。这些算法都是基于网状结构的分布式关联规则挖掘算法。但是,在实际的网络应用环境中,用户基于成本和管理等方面的需要,使用的网络结构往往是星型结构的,所以CD算法和FDM算法在网络结构和实际的网络结构不相适应,本文在CD算法及FDM算法的基础上提出以中心结点结构的分布式关联规则挖掘算法,并且从算法分析和仿真试验两个方面证明了算法的有效性和可扩展性。(2)在分布式挖掘过程中,分布式数据库中存在着大量的数量属性,这些数量属性的处理好坏,直接影响着关联规则的挖掘效果和效率。本文在分析了数量型属性划分的基础上,提出了改进的FCM聚类及其利用遗传算法优化FCM聚类来处理数量型关联规则的方法。(3)在实际的关联规则挖掘应用中,多层概念关联规则是用户经常考虑的问题。本文在设计并分析了单数据库多层关联规则挖掘算法的基础上,提出了在多层概念上进行分布式关联规则挖掘的算法。仿真试验表明,算法是有效的。(4)由于大量数据的分布,提高分布式关联规则挖掘的效率是十分重要的一个环节。本文在Sampling算法的基础上提出了分布式元学习可变精度关联规则挖掘算法。算法分析表明,该算法是有效的。(5)在关联规则挖掘中,关联规则结果的评价是关联规则应用的关键。本文在详细分析了目前国内外关联规则兴趣度评价的基础上,提出了利用Klementinen模版理论与相似性理论向结合的关联规则结果的处理算法。