论文部分内容阅读
数据挖掘和知识发现是智能科学技术领域的热点研究问题,具有重要的经济与社会价值,已经有了许多算法。然而,数据本身带有的噪声、冗余、高维特性,影响了挖掘和发现的效果。特征选择在一定程度上改善了这种情况。但是,特征选择问题目前仍缺乏更加有效的方法,导致挖掘和发现的结果并不是全局意义上的最优。群智方法是以自然界中生物原型为灵感形成的智能方法,是人工智能的重要成果之一。为得到最优的挖掘和发现结果,本文对基于群智的特征选择、分类、聚类的挖掘进行了研究。本文的贡献与创新主要有:1)对基于群智的数据挖掘进行了研究,提出了基于群智的特征选择、分类、聚类挖掘框架,解决了基于群智方法获取最优特征子集和挖掘结果的框架问题;对挖掘框架的不适应问题提出了相应的对策;并对本文提出的改进自适应蚁群优化的收敛性进行了理论研究,证明改进方法是收敛的,且满足一定的条件时,该方法在概率意义上收敛速度更快。2)对不同的特征选择模型及其评估度量进行了研究,提出了在上述基于群智的框架中,将过滤模型中的评估度量用于包装模型的策略。这种策略使用了特征重要度作为启发式信息,并通过群体引入随机因素及反馈信息纠正启发式信息中的不精确因素,使挖掘的过程更快地收敛于最佳的特征子集。并对多种启发式信息在特征选择中的融合问题进行了研究,提出了对扩展的t统计、费希尔区别度、随机森林重要度进行线性加权组合的方法,形成了融合后的特征重要度。解决了在基于群智的方法中,没有合适的启发式信息而造成的特征选择收敛速度慢、挖掘效果差的问题。3)对学习算法的敏感性寻优进行了研究。支持向量机(SVM, support vector machine)对输入数据的线性特征变换是敏感的,除了简单地将数据归一化之外,目前还没有方法来得到最佳的变换因子。本文提出了支持向量机与改进粒子群(MPSO, modified particle swarm optimization)混合的特征变换与分类方法,用新颖的启发式信息吸引改进群获得最优的变换因子;在变换后的数据集上运用离散二进制粒子群进行特征选择;在这个变换、选择生成的特征子集上产生最优的支持向量分类器。在1个NIPS (neural information processing systems) 2003的madelon数据集及10个UCI (university of California Irvine)数据集上的实验表明,与原先的SVM分类精度相比,本文提出的方法在(?)nadelon数据集及3个UCI数据集上的分类精度更高,特征数更少,是一种有益、可行的方法。4)对多种算法在数据挖掘中的混合运用,提升分类器的精度进行了研究,提出了自适应蚁群优化与随机森林混合的特征选择与分类挖掘方法,用于在高维微阵列基因表达数据集上选择具有高区别力的基因组合,来产生高精度的组合肿瘤分类器。在方法的预处理阶段,采用了小代价的基于排序的特征预选;在方法的实施阶段,采用了启发式信息加速精炼预选子集的搜索过程;在方法的后处理阶段,采用了受限的前向顺序选择,通过近似最优构造出全局最优。实验的结果表明,本文提出的方法在两种微阵列基因表达数据集上同时获得了最高的精度、最少的特征数;在其中的一种数据集上,还获得了三组不同的最优基因。5)对基于蚁群的自适应信息素与簇划分聚类进行了研究,提出了基于蚁群优化(ACO, ant colony optimization)的自适应信息素与簇划分聚类方法。将蚁群按聚类优化的进程分为开始阶段、持续增加阶段、N次不变阶段;自适应地采用不同的簇划分与信息素挥发方法,提高聚类的效果。在weka的iris数据集上的实验表明,本文提出的方法获得了更小的类内距离,精度达到了90~94%,是一种有益、可行的群智聚类方法。