论文部分内容阅读
数据挖掘与数据库知识发现(Knowledge Discovery in Databases,KDD)是当前涉及人工智能、数据库、统计学等学科的一门相当活跃的研究领域,是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式。分类(Classification)是数据挖掘领域的一个重要研究分支,分类首先要构造分类器,并对依据分类器对新数据进行类别预测。有关分类问题的研究中,较著名的决策树构造算法是J.R.Quinlan于1986年和1993年提出的ID3和C4.5算法。 概念格通过概念的内涵和外延及泛化和例化之间的关系来表示知识,因而适用于从数据库中挖掘规则问题的描述。在概念格的内涵中引入等价关系并将外延量化表示,可得到概念格的扩展形式,可以更清晰的表示概念内涵之间的关系,更有利于知识提取。本文研究基于概念格的这种扩展形式的分类问题,并提出面向分类的概念格的剪枝方法。基于这种剪枝后的格结构(分类剪枝格)挖掘的分类规则在规则质量等方面具有良好的性能。面向分类问题的剪枝方法,一定程度上简化了格结构,加速了分类规则的提取过程。本文对决策树和概念格扩展模型两种分类方法从理论和试验两方面进行了比较,结果证明,基于概念格扩展模型的分类方法具有一定的优越性。然而,由于概念格的完备导致了格结构规模的庞大,一定程度上制约了其应用。 当前数据量和数据类型以及分布式数据库的不断增长给数据挖掘领域提出了新的挑战,对概念格模型来讲,研究这一问题具有更重要的现实意义。为此,很多专家学者提出,将并行、分布式计算环境引入数据挖掘领域,形成了新的研究课题。本文将分布式数据挖掘的思想引入概念格的分类过程中,提出分布式概念格的分类,以提高分类的时间效率。这种方法不仅适用于大规模的集中式数据库,同时也能用于处理异构、分布式的数据库,具有很好的研究前景。