基于粗糙集的分类方法研究

被引量 : 0次 | 上传用户:xiaoxiaoxiaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能是研究使用计算机来模拟人类的思维过程和智能行为(如学习、推理、思考、规划等)的学科。它作为计算机学科的一个重要分支,自二十世纪七十年代以来成为世界三大尖端技术(能源技术、空间技术、人工智能)之一。也被公认为二十一世纪三大尖端技术(纳米科学、基因工程、人工智能)之一。人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。因此,机器学习在人工智能的研究中具有十分重要的地位。机器学习是研究怎样使用计算机模拟或实现人类的学习过程,从而获得新的知识或技能,重构已有的知识使它不断改善自身的性能。一个没有学习能力的智能系统并不是一个真正意义上的智能系统,不过以前的智能系统大多缺乏学习能力。随着计算机技术的日益发展,人类收集数据、存储数据的能力大大提高,无论科学研究还是社会生活,各个领域都积累了大量数据。如何对这些数据进行挖掘、分析,从中找到蕴涵的规律,几乎成为所有领域的共同需求。正是在这种情形下,机器学习技术受到越来越多地关注,逐渐成为人工智能研究的核心之一。粗糙集理论是由波兰数学家Z.Pawlak于1982年首先提出的一种主要用于分析具有不确定性数据的数学理论。该理论的优点是不需要预先给定数据的某些特征或描述,仅从给定数据的各属性出发,就可以找到属性之间相关性,既而发现数据的规律,最终生成决策规则。粗糙集是机器学习的一个重要方法。该理论作为一种数据分析理论,是一种新型的处理模糊和不确定知识的数学工具。粗糙集自问世以来,经过许多计算机科学家和数据家的不懈研究,理论上日趋完善,已经广泛应用于模式识别、机器学习、数据挖掘、知识获取、知识发现等众多领域。粗糙集理论认为知识必须以关于对象的分类能力为基础。对象可以是指我们所能表达的任何事物,可以是具体的,也可以是抽象的。在粗糙集里,知识被理解成关于论域的一族划分模式,提供了论域的直接事实,以及由直接事实推倒出隐含事实的推理能力。粗糙集理论对知识进行了形式化定义,通过决策表对知识进行表示。决策表是一种带有决策属性的特殊而重要的知识表达系统,很多决策问题都可以用决策表形式表达。粗糙集理论的主要思想是在保持决策系统的分类能力的情况下,通过知识约简,导出问题的决策或分类规则。本文将粗糙集技术应用于智能分类,从粗糙集技术的理论研究及算法设计出发,在粗糙集的属性离散化、约简等方面进行了深入研究,提出了属性重要度的计算方法、连续属性离散化方法、基于粗糙集的分类方法等,并对粗糙集的约简与决策规则的关系进行了探讨。⑴属性重要度计算。在一个决策系统里,每一个条件属性对于分类结果来说并不是同等重要的。而条件属性与决策属性之间的互信息恰恰反映了条件属性的重要性。因此,条件属性取得某个属性值时,决策属性的可能值数目就反映了条件属性相对于对决策属性的重要性。如果条件属性取得某个属性值?时,决策属性的可能值数目为1,则说明该条件属性?能够唯一确定某一决策属性,因此在规则生成时,不需要考虑其他条件属性。基于该思想提出了属性重要度的计算方法(定义3.1)并通过实验证明了该计算方法的可行性。⑵连续属性离散化方法研究。在一个决策系统里,其样本数据可能是连续的也可能是离散的。而糙糙集技术只能对离散的条件属性进行处理,因此连续属性的离散化对于粗粗糙集来说至关重要。为了简化决策系统,有的时候即使属性已经是离散的,我们仍需要对离散值进行合并(抽象)得到更高抽象层次的离散值,从而获得样本数据的更多共性。本文提出的连续属性离散化算法的主要思想是:在一个决策系统中,决策规则通常与重要度高的条件属性相关性更高。算法首先对未离散化的属性用传统的模糊C-mean(模糊C均值)聚类方法进行聚类从而实现属性的初步离散化,计算各条件属性的重要度。在对属性离散化时与比其重要度高的属性联合计算并充分考虑分类目标。通过实验证明了算法能够产生尽可能少的离散属性值,生成最少、最优的规则集。并与其他算法进行了对比实验分析,进一步验证了算法的有效性和可行性。⑶基于粗糙集的分类方法研究。粗糙集的特点也是其主要优点在于不需要提供问题所需处理的数据集合以外的任何先验信息,并善于处理不精确、不相容和不完全的数据。基于粗糙集的分类算法,首先对决策系统进行预处理,即对连续的条件属性进行离散化。按照属性重要度由高到低依次将各条件属性离散化,直到所得到的离散后的决策系统是一致的或所有的条件属性都已被离散化为止。然后去除重复对象,生成最后的决策规则集。传统的粗糙集理论在进行条件属性离散化时,仅考虑条件属性自身的特点,并且通常需要属性约简后才能得到最后的规则集。文中提出的基于粗糙集分类方法在进行属性离散化过程中按属性重要度由高到低依次进行,并充分考虑已离散化的各条件属性和类别属性。最后生成的决策规则集,规则数目少且无需要进一步的属性约简。通过实验对算法的多个侧面进行了验证,并与其他经典算法进行了比较,充分验证了算法的优越性和可行性。⑷基于断点处理的粗糙集分类方法研究。对于粗糙集理论来说,离散化的断点数与属性区间划分直接相关。⑶中提出的基于粗糙集的分类方法在进行属性离散化时对一些特殊断点的处理不够细致。通过对这些断点的进一步处理,基于断点处理的粗糙集分类方法进一步提高了分类精度,同时降低了决策系统的规则数目。算法在对组内的两个区间进行归并时的端点进行细化处理:如果新的划分区间中的左端点来自于原来区间的右端点,则该端点值扩大?倍,这样就避免了因端点值引发的数据不一致性。将改进前后的两个算法分别在茶味觉信号数据上进行测试对比,实验结果证明了基于断点处理的粗糙集算法的进步性。⑸粗糙集的约简与决策规则的关系的探讨。粗糙集的主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。所谓的约简,就是在保持知识库分类能力的前提下,删除其中不相关或不重要的知识。而规则集则是按照某一知识分类方法对原决策表的各属性值进行归类处理后生成的决策表。通过对属性进行约简促使决策系统变得简化,并使决策规则数量变少,规则长度变短。一般来说,规则长度与规则数成正向关系。通过多个实验验证了约简与决策规则的关系,从而也证明了约简对于粗糙集来说非常重要。基于粗糙集的学习方法是机器学习领域的强大工具。本文对这一方法体系在数据分类方面的理论研究和算法设计进行了大量的工作。所做的研究虽然有限,但足以反射出粗糙集技术的无限魅力。在各种方法不断涌现的信息时代,粗糙集技术及其相关算法必将发挥更加重要的作用。
其他文献
由于资金及场地的限制,库存也不能无限增加,如果计划不准,没有考虑下一步工序所需的物资.即使其他物资的库存很多,也同样会出现停工待料的现象。因此还必须了解工程的实际进
本文基于金融危机背景下我国实施的增值税转型改革,将这种税制改革与中小板上市公司的企业价值联系起来,以期检验这种改革是否符合改革的初衷,即这种消费型增值税促进了企业
试验立足当地资源,筛选出适合黄伞栽培的高产配方2个,生物学效率达93.07%。确定黄伞覆土栽培的生长优势在第2潮,可占整个生育期产量的近1/2.
北斗系统是我国自主研发、具有自主知识产权的卫星导航定位系统,它对我国的军事、政治、经济等方面的发展具有重要的战略意义。当前,世界各大国都在大力推进自己卫星导航系统的现代化进程,我国北斗系统起步虽晚于美国GPS和俄罗斯GLONASS等系统,但也于2018年12月宣布进入全球时代。B1C信号作为一种民用全球信号,它采用不同于GPS系统及Galileo系统的一种全新时域调制方式。其与GPS系统的L1C信
重点讨论项目管理模式的评估理论与方法,并提出了多层次灰色理论的项目管理模式选择的综合评价模型及评价程序及方法.
目的通过对我院急诊科急性肾绞痛治疗的回顾性分析,对常用的几种治疗药物组合进行比较,探寻治疗急性肾绞痛的最佳方案。方法急诊科640例急性肾绞痛确诊病例资料,根据我院常用的
随着我国社会经济的迅速发展,工程建设逐步改革,建设工程项目管理方面也在进行相应的变革,出现了各种促进项目管理水平提高的模式,但相比发达国家而言,这些项目管理模式的层
火山灰云的存在会对航空事业的发展产生十分严重的影响。由于火山灰云的不确定性,在现实中很难实现对其的有效预测。因此,火山灰云的监测工作越来越受到人们的重视。卫星遥感
O2O模式是通过互联网把线上虚拟平台与线下消费相结合,这种全新的模式已经得到社会普遍的支持与认可。在"懒人经济"的环境下,高校在校大学生这支庞大的群体占据了电子商务消
<正>叶佳静在学电脑打字的时候,没有学五笔打字法,电脑输入都是用拼音,觉得这样比较省事。现在有时候在输入生僻字的时候可就麻烦了,不认识的字,不会念就没办法用拼音来输入,