论文部分内容阅读
时间序列模式、分类规则和关联规则挖掘是当前数据挖掘研究中一个热点。本文对时间序列模式、分类规则和关联规则挖掘的方法进行了深入的研究。挖掘规则及其它知识是一个多阶段的处理过程,本文认为这个过程应以用户为中心。这个处理过程的各个阶段都是重要的,都应加以详细研究。在这个思想指导下开展工作,主要内容如下: 本文对数据准备的方法进行了深入的研究,提出了一种基于数据仓库的数据挖掘模型,该模型结合了OLAP技术和数据仓库的策略,利用概念层次作为背景知识,将数据库中的原始数据泛化成用户感兴趣的概念层次上的、聚合的、具有统计意义的元数据。 将相关性分析引入数据预处理过程,从而去除与挖掘任务不相关的属性,减少了数据集,提高了挖掘规则精度。 针对泛化后的数据,本文改进并实现时间序列模式发现算法; 修改了传统的决策树算法,提出了一种适合于泛化数据的决策树构造算法:阈值控制法,阈值控制法通过阈值和概念层次的控制,可以建立简洁明了、具有统计意义的分类树; 在概念格理论基础上提出了基于不确定系数法挖掘关联规则的算法。 设计并初步实现了一个数据挖掘原型系统,该工具以用户为中心,在用户的干预下能够有效的对现实数据库、数据仓库进行时间序列模式、分类规则和关联规则的挖掘。