论文部分内容阅读
人工智能是研究使用计算机来模拟人类的思维过程和智能行为(如学习、推理、思考、规划等)的学科。它作为计算机学科的一个重要分支,自二十世纪七十年代以来成为世界三大尖端技术(能源技术、空间技术、人工智能)之一。也被公认为二十一世纪三大尖端技术(纳米科学、基因工程、人工智能)之一。人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。因此,机器学习在人工智能的研究中具有十分重要的地位。机器学习是研究怎样使用计算机模拟或实现人类的学习过程,从而获得新的知识或技能,重构已有的知识使它不断改善自身的性能。一个没有学习能力的智能系统并不是一个真正意义上的智能系统,不过以前的智能系统大多缺乏学习能力。随着计算机技术的日益发展,人类收集数据、存储数据的能力大大提高,无论科学研究还是社会生活,各个领域都积累了大量数据。如何对这些数据进行挖掘、分析,从中找到蕴涵的规律,几乎成为所有领域的共同需求。正是在这种情形下,机器学习技术受到越来越多地关注,逐渐成为人工智能研究的核心之一。粗糙集理论是由波兰数学家Z.Pawlak于1982年首先提出的一种主要用于分析具有不确定性数据的数学理论。该理论的优点是不需要预先给定数据的某些特征或描述,仅从给定数据的各属性出发,就可以找到属性之间相关性,既而发现数据的规律,最终生成决策规则。粗糙集是机器学习的一个重要方法。该理论作为一种数据分析理论,是一种新型的处理模糊和不确定知识的数学工具。粗糙集自问世以来,经过许多计算机科学家和数据家的不懈研究,理论上日趋完善,已经广泛应用于模式识别、机器学习、数据挖掘、知识获取、知识发现等众多领域。粗糙集理论认为知识必须以关于对象的分类能力为基础。对象可以是指我们所能表达的任何事物,可以是具体的,也可以是抽象的。在粗糙集里,知识被理解成关于论域的一族划分模式,提供了论域的直接事实,以及由直接事实推倒出隐含事实的推理能力。粗糙集理论对知识进行了形式化定义,通过决策表对知识进行表示。决策表是一种带有决策属性的特殊而重要的知识表达系统,很多决策问题都可以用决策表形式表达。粗糙集理论的主要思想是在保持决策系统的分类能力的情况下,通过知识约简,导出问题的决策或分类规则。本文将粗糙集技术应用于智能分类,从粗糙集技术的理论研究及算法设计出发,在粗糙集的属性离散化、约简等方面进行了深入研究,提出了属性重要度的计算方法、连续属性离散化方法、基于粗糙集的分类方法等,并对粗糙集的约简与决策规则的关系进行了探讨。⑴属性重要度计算。在一个决策系统里,每一个条件属性对于分类结果来说并不是同等重要的。而条件属性与决策属性之间的互信息恰恰反映了条件属性的重要性。因此,条件属性取得某个属性值时,决策属性的可能值数目就反映了条件属性相对于对决策属性的重要性。如果条件属性取得某个属性值?时,决策属性的可能值数目为1,则说明该条件属性?能够唯一确定某一决策属性,因此在规则生成时,不需要考虑其他条件属性。基于该思想提出了属性重要度的计算方法(定义3.1)并通过实验证明了该计算方法的可行性。⑵连续属性离散化方法研究。在一个决策系统里,其样本数据可能是连续的也可能是离散的。而糙糙集技术只能对离散的条件属性进行处理,因此连续属性的离散化对于粗粗糙集来说至关重要。为了简化决策系统,有的时候即使属性已经是离散的,我们仍需要对离散值进行合并(抽象)得到更高抽象层次的离散值,从而获得样本数据的更多共性。本文提出的连续属性离散化算法的主要思想是:在一个决策系统中,决策规则通常与重要度高的条件属性相关性更高。算法首先对未离散化的属性用传统的模糊C-mean(模糊C均值)聚类方法进行聚类从而实现属性的初步离散化,计算各条件属性的重要度。在对属性离散化时与比其重要度高的属性联合计算并充分考虑分类目标。通过实验证明了算法能够产生尽可能少的离散属性值,生成最少、最优的规则集。并与其他算法进行了对比实验分析,进一步验证了算法的有效性和可行性。⑶基于粗糙集的分类方法研究。粗糙集的特点也是其主要优点在于不需要提供问题所需处理的数据集合以外的任何先验信息,并善于处理不精确、不相容和不完全的数据。基于粗糙集的分类算法,首先对决策系统进行预处理,即对连续的条件属性进行离散化。按照属性重要度由高到低依次将各条件属性离散化,直到所得到的离散后的决策系统是一致的或所有的条件属性都已被离散化为止。然后去除重复对象,生成最后的决策规则集。传统的粗糙集理论在进行条件属性离散化时,仅考虑条件属性自身的特点,并且通常需要属性约简后才能得到最后的规则集。文中提出的基于粗糙集分类方法在进行属性离散化过程中按属性重要度由高到低依次进行,并充分考虑已离散化的各条件属性和类别属性。最后生成的决策规则集,规则数目少且无需要进一步的属性约简。通过实验对算法的多个侧面进行了验证,并与其他经典算法进行了比较,充分验证了算法的优越性和可行性。⑷基于断点处理的粗糙集分类方法研究。对于粗糙集理论来说,离散化的断点数与属性区间划分直接相关。⑶中提出的基于粗糙集的分类方法在进行属性离散化时对一些特殊断点的处理不够细致。通过对这些断点的进一步处理,基于断点处理的粗糙集分类方法进一步提高了分类精度,同时降低了决策系统的规则数目。算法在对组内的两个区间进行归并时的端点进行细化处理:如果新的划分区间中的左端点来自于原来区间的右端点,则该端点值扩大?倍,这样就避免了因端点值引发的数据不一致性。将改进前后的两个算法分别在茶味觉信号数据上进行测试对比,实验结果证明了基于断点处理的粗糙集算法的进步性。⑸粗糙集的约简与决策规则的关系的探讨。粗糙集的主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。所谓的约简,就是在保持知识库分类能力的前提下,删除其中不相关或不重要的知识。而规则集则是按照某一知识分类方法对原决策表的各属性值进行归类处理后生成的决策表。通过对属性进行约简促使决策系统变得简化,并使决策规则数量变少,规则长度变短。一般来说,规则长度与规则数成正向关系。通过多个实验验证了约简与决策规则的关系,从而也证明了约简对于粗糙集来说非常重要。基于粗糙集的学习方法是机器学习领域的强大工具。本文对这一方法体系在数据分类方面的理论研究和算法设计进行了大量的工作。所做的研究虽然有限,但足以反射出粗糙集技术的无限魅力。在各种方法不断涌现的信息时代,粗糙集技术及其相关算法必将发挥更加重要的作用。