论文部分内容阅读
特征选择是机器学习和数据挖掘工作中的重要环节,特征选择算法旨在找到一个小数量的特征集合用以描述整个数据集,且描述效果能够接近甚至超越原始的特征集合。算法通过剔除与分类无关和冗余的特征,降低数据维度,避免发生维度灾难,可以加快学习算法的运行效率,甚至提高它们的性能。根据单个样本所能包含的标签数量,数据分类模式可分为单标签分类和多标签分类两种。特征选择已经被广泛应用于单标签分类学习中,但是其在多标签领域上的研究依然较少。现阶段越来越多的领域需要处理多标签问题,多标签特征选择算法的研究和工作已经成为热点。本文提出三种多标签特征选择方法:(1)基于ReliefF的多标签特选择算法MLRF;(2)基于MLRF和互信息的过滤式—过滤式组合式多标签特征选择算法MML-RF;(3)融合了MLRF和遗传算法的过滤式—包裹式的混合式多标签特征选择算法MLRF-GA。首先,针对传统ReliefF算法不能应用于多标签情境的问题,通过改进最近邻类内样本的寻找方式和引入多标签贡献值,修改特征权值的计算方法,得到多标签特征选择算法MLRF。本文在三个公用多标签数据集上,通过实验验证了参数制定的合理性和算法的有效性,证明所提算法性能优于数据转化型方法PPT-Relief F算法。随后,针对Relief系列算法不能去除特征冗余的缺点,引入互信息作为特征冗余度量,使用序列后向搜索法进行特征搜索,使用特征权值和互信息相结合的评价指标作为子集评判标准,得到一种过滤式—过滤式的组合式多标签特征选择算法MML-RF。实验与算法适应型的ReliefF-ML算法进行对比,结果表明所提算法在性能上略优于对比算法,并且可以有效的去除冗余特征,能够得到更加精简的特征子集,且保持了过滤式方法运行效率高的优点。最后,为了进一步提高算法性能,且避免评价过程过分依赖单个特征评分的问题,融合包裹式的方法得到混合式多标签特征选择算法MLRF-GA。首先将遗传算法根据多标签数据集的特点进行改进得到ML-GA方法,随后根据所提MLRF算法的结果对特征进行初步筛选,并将所得特征权值作为先验信息引导ML-GA的进行。实验对比了其它三种不同类型的算法,结果表明所提混合型方法具有良好的综合性能:较之过滤式方法,该算法能够选择出分类性能较高且规模较小的特征子集,能够很好的提升分类器性能;较之包裹式方法,所提算法具有更高的效率,时间开销较小。