论文部分内容阅读
目前数据挖掘的方法有很多,本文主要研究了数据挖掘中的粗糙集方法,重点研究了基于粗糙集的属性约简算法在数据挖掘规则提取阶段的应用。粗糙集在数据挖掘中通常被用于知识的约简,从而进行规则的提取。属性约简是粗糙集理论研究的核心内容之一。本文对传统的基于粗糙集的属性约简算法深入研究的同时进行了改进,并针对大规模数据集的数据挖掘,提出了一种新的属性约简算法。粗糙集理论是一种新的处理模糊和不精确问题的重要数学工具,是一种新的数据挖掘技术。传统的属性约简算法要么空间复杂度比较高,要么约简不够精确,本文提出的新的属性约简算法很好的解决了空间复杂度的问题,适合对数据挖掘中的大表、大文件进行约简,从而得出具体的规则,这是传统的属性约简算法不能做到的。本文的主要研究内容如下:(1)对基于粗糙集的数据挖掘研究现状进行了分析;深入研究了粗糙集相关理论知识和数据挖掘相关技术;将粗糙集与数据挖掘相结合,着重研究了基于粗糙集的数据挖掘模型,对粗糙集在数据挖掘中的应用进行了系统分析。(2)对几种传统的基于粗糙集的属性约简算法进行了深入研究,并分析其各自的优缺点。在此基础上,提出了一种改进的基于差别矩阵的属性约简算法,并通过实验验证其有效性。(3)针对传统属性约简算法在应用中暴露出的问题,本文借助数据结构中的树型结构建立了多叉树理论,并在此基础上提出了一种新的基于多叉树的属性约简算法。该算法相对于传统属性约简算法来说空间复杂度较低,适合对数据挖掘中的大表、大文件进行约简,从而得出具体的规则,较传统的属性约简算法有很大优势。(4)在UCI中选取三个不同规模的数据集作为测试训练集,通过对两个对比算法进行详细的仿真实验,验证了基于多叉树算法的可行性和有效性。