基于Relief特征选择算法的研究与应用

被引量 : 0次 | 上传用户:wfn031641lpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着当代科学技术的高速发展,人类已经进入了信息爆炸的时代。数据挖掘技术通过从大量数据中揭示出隐含的信息,将海量的高维数据转换为有用的信息和知识。特征选择是数据挖掘中的一个重要方向,特征选择算法通过剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精度,减少运行时间的目的。从数据解释的层面上看,关键特征的提取还可以使模型得到简化,从而便于研究人员理解数据的产生。Relief是一种有效的特征选择算法。与ReliefF不同,Multi-Relief通过在多次随机抽取的两类样本上运行Relief算法将其由2类问题推广到多类问题。由于一次抽样只能随机抽取多类数据中的两类样本,可能造成所选样本的分布不具有代表性。为了有效融和每次抽样的结果,准确度量属性的的权重,本文提出了一种改进的Multi-Relief算法,核算法对每一次抽样产生的权重向量分组,将在组内出现频率小于一定程度的正权值摒弃,形成新的权重融合方法。在三组肝病代谢组学数据和三组公共数据中的实验表明,改进的Multi-Relief算法与Multi-Relief和ReliefF算法相比,性能得到了提高。本文还将ReliefF-RFE算法应用于生物数据的处理中。本文经过对基于SVM的ReliefF-RFE原理的分析以及研究,在本实验中用kNN分类器取代了SVM分类器。在两组肝病代谢组学数据以及六组高维的生物公共数据上的实验结果显示ReliefF-RFE算法与经典的ReliefF算法对比,所筛选的属性区分能力更强。本文从两个不同的角度对Relief族特征选择算法进行了讨论和分析,并通过十次十(?)交叉验证分类准确率结果证明了两种算法的有效性。
其他文献
表决权信托是信托法领域与公司法领域的结合和创新,是通过股东之间争夺控制权从而达到中小股东参与公司治理的一种手段。表决权信托自其1864年在美国产生以来,经过一百多年的发
本论文系统的研究了硅取代磷酸铝分子筛SAPO-34的尺寸和形貌对其在甲醇转化制取烯烃(MTO)反应中催化表现的影响。实验结果显示,催化剂的失活行为和催化寿命明显的受到了催化剂尺
在引发重大传染性疾病的病原体中,包括HIV-1在内的众多病毒,都需要协调宿主体内多种积极的细胞因子,并借助宿主细胞内的各种系统来完成病毒自身高效的复制。而另一方面,哺乳动物
结合某铁路软岩深埋隧道,利用FLAC3.0有限差分法进行了位移模拟计算,选取较适合的伯格斯弹—粘塑性体模型模拟分部开挖施工,模拟中选取了4个关键点进行观测,结果表明计算的变
目的:描述长春市实习护生在医疗机构实习期间遭受工作场所性骚扰的现状;分析影响因素及原因;探讨可行的预防、处理性骚扰的方法和制度。方法:于2012年11月至2013年1月,对长春市4家
随着计算机与网络的迅猛发展,数据量也与日激增,据思科在其《全球云数据报告中》指出,由于用户和企业的不受限制地访问及应用数据的需求,在2010至2015年期间,全球云数据流量将以每
在不断进步的现代社会中,人们对城市环境提出了新的要求,桥梁作为城市交通不可分割的一部分,对城市的美观起着举足轻重的作用。索辅体系斜拉桥以其优美的造型、新颖的结构越来越
目的:通过检测HP(Helicobacter pylori,HP)感染与非HP感染不同慢性胃病患者血清胃蛋白酶原(Pepsinogen,PG)水平及其水平的变化规律,探讨HP感染慢性胃病患者血清PG水平变化与即从慢性
数控机床产业是装备制造业的支柱产业,高档数控机床技术更是国际市场竞争激烈的尖端领域。我国国有数控行业目前正呈现一种市场占有率低下,高端产品几乎完全依赖进口的不良境况
中国人力资源管理水平已经有了很大的进展,但其作用却远未发挥。人力资源管理仍然处于技术人力资源管理阶段。但是,面对全球化、新经济、满足利益相关群体需要、高绩效工作系