基于ReliefF的多标签特征选择算法研究

来源 :广东工业大学 | 被引量 : 9次 | 上传用户：jiugeqingjiao

【摘要】

：

特征选择是机器学习和数据挖掘工作中的重要环节,特征选择算法旨在找到一个小数量的特征集合用以描述整个数据集,且描述效果能够接近甚至超越原始的特征集合。算法通过剔除与

【作者】

：

黄辉

【出处】

：

广东工业大学

【发表日期】

：

2018年01期

【关键词】

：

特征选择多标签特征冗余 ReliefF 遗传算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

特征选择是机器学习和数据挖掘工作中的重要环节,特征选择算法旨在找到一个小数量的特征集合用以描述整个数据集,且描述效果能够接近甚至超越原始的特征集合。算法通过剔除与分类无关和冗余的特征,降低数据维度,避免发生维度灾难,可以加快学习算法的运行效率,甚至提高它们的性能。根据单个样本所能包含的标签数量,数据分类模式可分为单标签分类和多标签分类两种。特征选择已经被广泛应用于单标签分类学习中,但是其在多标签领域上的研究依然较少。现阶段越来越多的领域需要处理多标签问题,多标签特征选择算法的研究和工作已经成为热点。本文提出三种多标签特征选择方法:(1)基于ReliefF的多标签特选择算法MLRF;(2)基于MLRF和互信息的过滤式—过滤式组合式多标签特征选择算法MML-RF;(3)融合了MLRF和遗传算法的过滤式—包裹式的混合式多标签特征选择算法MLRF-GA。首先,针对传统ReliefF算法不能应用于多标签情境的问题,通过改进最近邻类内样本的寻找方式和引入多标签贡献值,修改特征权值的计算方法,得到多标签特征选择算法MLRF。本文在三个公用多标签数据集上,通过实验验证了参数制定的合理性和算法的有效性,证明所提算法性能优于数据转化型方法PPT-Relief F算法。随后,针对Relief系列算法不能去除特征冗余的缺点,引入互信息作为特征冗余度量,使用序列后向搜索法进行特征搜索,使用特征权值和互信息相结合的评价指标作为子集评判标准,得到一种过滤式—过滤式的组合式多标签特征选择算法MML-RF。实验与算法适应型的ReliefF-ML算法进行对比,结果表明所提算法在性能上略优于对比算法,并且可以有效的去除冗余特征,能够得到更加精简的特征子集,且保持了过滤式方法运行效率高的优点。最后,为了进一步提高算法性能,且避免评价过程过分依赖单个特征评分的问题,融合包裹式的方法得到混合式多标签特征选择算法MLRF-GA。首先将遗传算法根据多标签数据集的特点进行改进得到ML-GA方法,随后根据所提MLRF算法的结果对特征进行初步筛选,并将所得特征权值作为先验信息引导ML-GA的进行。实验对比了其它三种不同类型的算法,结果表明所提混合型方法具有良好的综合性能:较之过滤式方法,该算法能够选择出分类性能较高且规模较小的特征子集,能够很好的提升分类器性能;较之包裹式方法,所提算法具有更高的效率,时间开销较小。

其他文献

不同水汽源控制下的降水同位素分布特征

根据全球大气降水同位素网络中国33个站点降水与气象资料,结合已有中国各地区降水同位素的研究,系统分析了5种不同季风对中国大气降水同位素组成的影响。各个不同水汽来源区

期刊

稳定同位素大气降水水汽来源时间序列

云计算技术在图书馆中的应用

本文首先对云计算的定义及特点进行了简要的介绍。同时,结合图书馆面临的挑战,分析云计算给图书馆带来的发展机遇,并探讨了云计算技术应用在图书馆中的三种模式。 This pape

期刊

云计算图书馆模式

沉睡公园绽新姿——河北区人大常委会助推提升改造北宁公园纪实

<正>过去,许多天津市民和外地来津办事、探亲访友的人们,都喜欢去北宁公园一游。在他们的记忆中,那时座落在河北区的标志性公园——北宁公园,"古老而闻名遐迩"。然而也就是这

期刊

河北区人大常委会北宁公园提升改造

上市公司财务预警机制的构建

目前,我国上市公司在我国企业中占有很大比重,随着上市公司的日益壮大,其力量已经逐渐可以左右我国经济形势的发展。就目前上市公司经营管理总体情况来看,还存在着一些问题,

期刊

上市公司财务预警机制现状组织架构生成机制监督机制

建立骨科护理质量控制小组的方法与实践

目的探讨建立骨科护理质量控制小组的方法与实践评价。方法通过成立质量控制小组，培训质控人员，制定质控标准内容及质控分析，对病区的护理工作质量进行全面、全程的持续监控，对质

期刊

质量控制质量小组护理

基于现金流的上市公司财务预警研究——以信息技术业为例

信息技术业企业无形资产占比大,现金流量不稳定,更容易陷入财务危机。文章从偿债能力、营运能力、盈利能力、成长能力和现金创造能力五个维度设计基于现金流量的指标体系,运

期刊

现金流量财务预警logistics回归模型信息技术业

2型糖尿病患者血清胱抑素C水平与振动感觉阈值的关系

目的:探讨2型糖尿病(Type 2 diabetes mellitus,T2DM)患者血清胱抑素C(cystatin-C,Cys-c)与振动感觉阈值(vibrating perception threshold,VPT)之间的关系。方法:选择352例T2

期刊

胱抑素C振动感觉阈值糖尿病肾病氧化应激炎症反应

p33～（ING1b）对胶质瘤细胞增殖及凋亡作用的研究

【目的】构建p33ING1b及NLS肽段重组真核融合蛋白表达质粒pcDNA3.1-p33ING1b-V5His及pcDNA3.1-NLS-V5-His，观察重组质粒表达蛋白的亚细胞定位及目的基因表达蛋白对胶质母细胞

学位

p33ING1b胶质母细胞瘤增殖凋亡

LMO3基因在人脑胶质瘤及正常脑组织中的表达及意义

目的：观察LMO3基因在人脑胶质瘤与正常脑组织中的表达及其临床意义。方法：取新鲜人脑胶质瘤(31例)与正常脑组织(8例)，提取总核糖核酸(RNA)，通过其中的信使RNA(mRNA)进行逆转录，再

学位

LMO3基因胶质瘤基因表达

有机发光二极管光取出技术进展

有机发光二极管（OLED）经过近30年的发展，在材料开发和器件结构设计上取得了丰富成果，OLED在显示，尤其高端智能手机上已经开始大规模商用。但在照明领域，由于器件效率、寿命以及成本

期刊

有机发光二极管发光效率耦合效率内光取出外光取出

基于ReliefF的多标签特征选择算法研究

其他学术论文