论文部分内容阅读
随着现代科技的高速发展,获取数据的技术越来越多,使得数据量呈现了一种爆炸性的增长。而伴随数据量增大的同时,数据中包含的噪音和无关信息也增多。面对这种现象,数据挖掘技术占据着越来越重要的地位。它能从海量数据中挖掘出有价值的东西,使得对数据的分析和解释更简便易懂。特征选择是数据挖掘过程中的一个重要组成部分,也是近年来数据挖掘领域的研究热点。特征选择方法能有效地删除噪音,降低冗余性,提高分类性能等。遗传算法(GeneticAlgorithm,GA)是一种典型的封装式特征选择方法,由于它突出的对问题的求解能力,受到了大量的关注。 本文通过对特征与类标之间相关性和特征与特征之间冗余性的分析,提出了一种基于特征组和GA结合的特征选择方法FS-FGGA。该方法利用对称不确定性分析相关性和冗余性,之后通过近似马尔科夫毯规则对相关特征进行分组,最后在特征组的基础上用遗传算法进行优化搜索。另一主要工作是提出了一种基于动态相关性分析的前向特征选择方法DRFFS。该方法是一种filter和wrapper混合的算法,首先通过多filter算法分数融合的方式来衡量特征与类标间的总体相关性;之后在分数融合的基础上,结合候选特征与已选子集的冗余性动态地改变候选属性的互补性,并运用基于排序的前向搜索策略选择最终的特征子集。通过特征组和遗传算法结合的方式,加速了问题求解的速度,并提高了解空间的质量。8组公共数据集的测试结果表明,FS-FGGA算法的分类准确率在大部分情况下高于SVM-RFE和ECBGS特征选择算法。基于动态相关性分析的前向特征选择方法不仅能选择与类标有高相关度的特征,而且能有效地降低特征子集中的冗余性。在6组公共数据上的测试结果证明,在大多数情况下,DRFFS不仅取得了最优分类准确率,而且同时提高了敏感度和特异度。