论文部分内容阅读
数据库内容丰富,蕴藏着大量可以用来做智能商务决策和科学推断的信息。构建适用于大型数据库的精确而高效的分类器是数据挖掘和机器学习研究的核心任务之一。模糊逻辑是进行数据挖掘的理论和工具之一,由于模糊逻辑可以处理不精确的知识,进行不精确的推理,因而将模糊逻辑用于数据挖掘的分类成为近来研究的热点。另外,由于模糊系统自学习能力的缺失使人们对增强模糊系统学习能力的研究产生了浓厚的兴趣,引入软计算领域的进化算法所形成的遗传模糊系统(Genetice Fuzzy System, GFS)已被提出并应用,GFS在系统的自学习、自适应以及优化能力方面体现了它的巨大价值。本文对遗传模糊系统在数据挖掘上的应用进行了如下研究:第一,为了解决初始数据集的有效模糊划分问题,提出了一种基于竞争聚集(Competitive Agglomeraion, CA)的模糊聚类算法,有效解决了传统模糊c-均值聚类算法(Fuzzy c-Means, FCM)无法预知给定数据集的最优划分类数的问题。CA算法成功实现了对数据库中不同结构和属性的数据单元进行分类和模糊集优化,并将划分得到的优化的模糊集表示成特定的隶属度函数模型以用于构建模糊分类系统(Fuzzy Classification System, FCS)的数据库(Data Base, DB)。实验部分分别采用FCM算法和CA算法对给定数据集进行模糊聚类,实验结果表明,采用CA算法更能体现数据分布的差异性,划分结果更具合理性。第二,为了对模糊划分得到的新数据库进行模糊关联规则的挖掘,本文根据模糊关联规则的特性及相关定义,对传统关联规则挖掘算法—Apriori算法进行改进,提出了模糊关联规则的挖掘算法,解决了模糊分类系统规则库(Rule Base, RB)的构建问题。实验部分对聚类生成的数据库应用模糊关联规则挖掘算法进行关联规则的挖掘,得到不小于给定最小支持率和最小信任度的模糊关联规则,实验结果验证了此算法的有效性。第三,精度和精简度是模糊分类系统设计的两个重要指标,针对初步得到的模糊分类系统存在的知识库冗余和分类精度低的问题,提出了基于遗传模糊的模糊分类系统优化方法,主要分为RB的遗传学习和DB的遗传调整。实验部分对构建的模糊分类系统分别进行模糊规则集的精简和隶属度模型参数的遗传调整,实验结果表明采用此方法不仅精简了冗余规则库并使分类精度有了很大程度的提升,有效验证了本章所提方法的可行性。为验证本文方法的有效性,以Diabetes数据库为例进行了仿真实验,并和几种比较通用的分类方法的实验结果进行比较。从仿真结果可以看出,本文提出的方法能够以较高的分类精度、较少的输入变量和模糊关联规则实现模糊分类系统的设计,达到精确性与解释性的折衷。