基于ReliefF的多标签特征选择算法研究

来源 :广东工业大学 | 被引量 : 9次 | 上传用户:jiugeqingjiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是机器学习和数据挖掘工作中的重要环节,特征选择算法旨在找到一个小数量的特征集合用以描述整个数据集,且描述效果能够接近甚至超越原始的特征集合。算法通过剔除与分类无关和冗余的特征,降低数据维度,避免发生维度灾难,可以加快学习算法的运行效率,甚至提高它们的性能。根据单个样本所能包含的标签数量,数据分类模式可分为单标签分类和多标签分类两种。特征选择已经被广泛应用于单标签分类学习中,但是其在多标签领域上的研究依然较少。现阶段越来越多的领域需要处理多标签问题,多标签特征选择算法的研究和工作已经成为热点。本文提出三种多标签特征选择方法:(1)基于ReliefF的多标签特选择算法MLRF;(2)基于MLRF和互信息的过滤式—过滤式组合式多标签特征选择算法MML-RF;(3)融合了MLRF和遗传算法的过滤式—包裹式的混合式多标签特征选择算法MLRF-GA。首先,针对传统ReliefF算法不能应用于多标签情境的问题,通过改进最近邻类内样本的寻找方式和引入多标签贡献值,修改特征权值的计算方法,得到多标签特征选择算法MLRF。本文在三个公用多标签数据集上,通过实验验证了参数制定的合理性和算法的有效性,证明所提算法性能优于数据转化型方法PPT-Relief F算法。随后,针对Relief系列算法不能去除特征冗余的缺点,引入互信息作为特征冗余度量,使用序列后向搜索法进行特征搜索,使用特征权值和互信息相结合的评价指标作为子集评判标准,得到一种过滤式—过滤式的组合式多标签特征选择算法MML-RF。实验与算法适应型的ReliefF-ML算法进行对比,结果表明所提算法在性能上略优于对比算法,并且可以有效的去除冗余特征,能够得到更加精简的特征子集,且保持了过滤式方法运行效率高的优点。最后,为了进一步提高算法性能,且避免评价过程过分依赖单个特征评分的问题,融合包裹式的方法得到混合式多标签特征选择算法MLRF-GA。首先将遗传算法根据多标签数据集的特点进行改进得到ML-GA方法,随后根据所提MLRF算法的结果对特征进行初步筛选,并将所得特征权值作为先验信息引导ML-GA的进行。实验对比了其它三种不同类型的算法,结果表明所提混合型方法具有良好的综合性能:较之过滤式方法,该算法能够选择出分类性能较高且规模较小的特征子集,能够很好的提升分类器性能;较之包裹式方法,所提算法具有更高的效率,时间开销较小。
其他文献
根据全球大气降水同位素网络中国33个站点降水与气象资料,结合已有中国各地区降水同位素的研究,系统分析了5种不同季风对中国大气降水同位素组成的影响。各个不同水汽来源区
本文首先对云计算的定义及特点进行了简要的介绍。同时,结合图书馆面临的挑战,分析云计算给图书馆带来的发展机遇,并探讨了云计算技术应用在图书馆中的三种模式。 This pape
<正>过去,许多天津市民和外地来津办事、探亲访友的人们,都喜欢去北宁公园一游。在他们的记忆中,那时座落在河北区的标志性公园——北宁公园,"古老而闻名遐迩"。然而也就是这
目前,我国上市公司在我国企业中占有很大比重,随着上市公司的日益壮大,其力量已经逐渐可以左右我国经济形势的发展。就目前上市公司经营管理总体情况来看,还存在着一些问题,
目的探讨建立骨科护理质量控制小组的方法与实践评价。方法通过成立质量控制小组,培训质控人员,制定质控标准内容及质控分析,对病区的护理工作质量进行全面、全程的持续监控,对质
信息技术业企业无形资产占比大,现金流量不稳定,更容易陷入财务危机。文章从偿债能力、营运能力、盈利能力、成长能力和现金创造能力五个维度设计基于现金流量的指标体系,运
目的:探讨2型糖尿病(Type 2 diabetes mellitus,T2DM)患者血清胱抑素C(cystatin-C,Cys-c)与振动感觉阈值(vibrating perception threshold,VPT)之间的关系。方法:选择352例T2
【目的】构建p33ING1b及NLS肽段重组真核融合蛋白表达质粒pcDNA3.1-p33ING1b-V5His及pcDNA3.1-NLS-V5-His,观察重组质粒表达蛋白的亚细胞定位及目的基因表达蛋白对胶质母细胞
目的:观察LMO3基因在人脑胶质瘤与正常脑组织中的表达及其临床意义。方法:取新鲜人脑胶质瘤(31例)与正常脑组织(8例),提取总核糖核酸(RNA),通过其中的信使RNA(mRNA)进行逆转录,再
有机发光二极管(OLED)经过近30年的发展,在材料开发和器件结构设计上取得了丰富成果,OLED在显示,尤其高端智能手机上已经开始大规模商用。但在照明领域,由于器件效率、寿命以及成本