基于特征选择与集成学习的高维不平衡数据分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:tjyydtj1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的兴起,海量的非结构化数据呈现高维和不平衡特性,现有的算法无法有效处理。尽管部分研究针对高维特征或者数据的不平衡性进行了改进,但这些方法只适合应用在某些特定领域,泛化性差,如何提高模型的分类性能和泛化能力成为该领域的重点研究方向。本文结合数据的特点,从混合采样、特征选择和集成学习三个层面加以改进。(1)针对数据集中出现的重复、异常以及冗余等干扰样本,设计了一个编辑最近邻噪声清除算法ENNC(Edited Neighborhood Noise Cleaning),针对数据分布不平衡的特点,提出基于边界邻域划分和K-means聚类改进的混合采样算法HBNPK(improved Hybrid-sampling based on Boundary Neighborhood Partition and K-means clustering),通过利用基于边界邻域划分改进的过采样算法OBNP(improved Oversampling algorithm based on Boundary Neighborhood Partition)对边界最难分类的少数类样本进行过采样,合成新的少数类样本,然后采用基于Kmeans聚类改进的欠采样算法UKC(improved Under-sampling algorithm based on K-means Clustering)对远离聚类中心的多数类边缘样本进行欠采样。(2)进一步分析特征的冗余性和相关性,通过引入特征的互补性,设计了一种基于互补性的FCBF特征选择算法FFSC(FCBF Feature Selection algorithm based on Complementarity),利用MIC系数和FCBF算法过滤掉不相关特征和冗余特征,然后根据特征互补性高低,利用C4.5分类器的分类效果对特征子集进行评估,选择最优特征子集。(3)经过混合采样和特征选择之后,得到预处理后的样本,为了进一步得到分类准确率高、适应性强、鲁棒性好的分类模型,构建Stacking两层模型框架,选择支持向量机、决策树、随机森林、自适应提升作为基模型层的分类器,这些学习器之间差异性大并且单个学习器分类性能好,选择运行速度较快、分类效果极强的XGBoost算法作为元模型层分类器。最后,本文通过对比实验,结果表明混合采样算法能够大大提升稀少类样本的识别率,进一步对数据进行特征选择之后,分类准确率显著提升。而基于Stacking两层架构的多分类器融合算法在分类性能和泛化能力方面比单一模型更优越。
其他文献
在人机交互环境系统中,随着交互对象和交互场景的日益复杂,传统的以视觉和听觉为主的信息传递方式已经难以满足工程应急场景下人们对信息传达及时性的需求,而触觉在感知信息方面具有独特的优势,能够弥补视、听感知通道的不足,在信息传达中的重要性日益凸显。然而,目前人们对于触觉在工程预警场景下的研究和应用还处于比较初级的阶段。因此,本文的研究目标在于以头戴式触觉预警原型为基础展开关于触觉感知认知过程的研究,探索
钢纤维混凝土(Steel Fiber Reinforced Concrete,SFRC)的发展历程可以追溯到1910年,由美国的Poter首创;后在第二次世界大战中日本为了战争需要把它用于抗爆结构。因钢纤维混凝土的抗裂性强,延伸性能好,耗能吸能性能优异,抗冲击性能优越。不仅在建筑行业中、桥梁工程中、机场港口工程中、国防军事上的应用中都备受青睐;也一直以来备受各界研究学者的喜爱。在现有的研究中钢纤维
随着互联网业务的迅猛发展,短视频、在线教育、视频会议以及云存储等应用层出不穷,当前网络无法满足不同类型应用对网络提出的差异化需求。并且当前网络架构缺乏对应用的感知,运营商只能成倍的扩充网络资源提升数据传输品质,不仅浪费资源,而且无法针对具体应用做出合理优化。因此,为了满足不同类型应用的需求,本文首先探索了开销更小,更准确的软件定义网络(SDN)测量方案,并综合考虑网络时延、抖动和带宽三个链路评价指
水凝胶是一类柔软灵活并且具有三维(3D)网络结构的高分子聚合物材料。由于具有良好的柔性以及保水能力等特点,目前已经开发出多种类型的水凝胶来满足不同领域的应用要求。然而,传统水凝胶仍然存在导电性较低、力学性能以及生物相容性不佳并且对外界刺激响应单一等缺点,限制其实际应用范围。到目前为止,已经实现多种方法来改善水凝胶的性能并扩展其应用范围。其中,通过向水凝胶网络中引入功能化纳米材料的方法受到研究者的广
在市场环境日趋饱和与监管政策日趋严格的背景下,我国网约车市场从增量机会走向存量博弈,平台侧面临变革,强运营管理是网约车企业能够可持续发展的核心。其中,司机是平台与乘客的关键桥梁,决定平台的服务交付质量。为提升司机服务质量,滴滴出行成立专项司机服务部,专业的司机管理团队与头部的网约车司机协同搭建深度规范的线上线下运营体系,实现司机的精细化运营管理。司机服务经理作为司机的服务者与管理者,提升其工作能力
该论文是基于三一起重机有限公司委托的三一重工越野起重机工业造型设计项目展开论述,主要的背景是三一起重机有限公司希望打造更满足使用需求、营造更具有设计特征和品牌形象的越野起重机。目前市场上工程机械产品竞争激烈,差异小,个性化和人性化设计水平欠佳,同时工程机械企业在科学技术、产品功能和使用方法上的同质化现象越来越严重。因此,为了提高越野起重机功能以及实际使用效率,给市场和用户带来具有一定人机工程学和富
肠道病毒(Enterovirus)属于微小RNA病毒科(Picornaviridae)的非逆转录RNA病毒,会引起众多传染性疾病,例如病毒性心肌炎、脊髓性灰质炎和手足口病等,严重危害公众健康。虽然对肠道病毒感染和致病机制有了一定了解,但是针对肠道病毒诱发的多种疾病仍无有效治疗药物。肠道病毒的基因组是一条单链正义RNA,在感染中可直接翻译形成病毒蛋白并通过RNA复制完成增殖,基因组RNA的翻译、复制
镁合金具有低密度、高比强度、高导热性和尺寸稳定等优良特性,被广泛地应用在航空航天、汽车轻量化和制造轻薄类电子产品等方面。由于常规镁合金室温强度偏低和耐蚀性较差,室温成形困难且高的腐蚀速率容易导致零部件在使用过程中提前断裂失效,从而在提高合金综合力学性能的基础上保证优异的耐腐蚀性能是研制新型高性能镁合金的关键。Mg-Ga系合金是一类新型有潜力的高性能镁合金,目前尚缺乏系统深入的研究。前期研究表明,该
随着工业化的发展,由难降解有机污染物带来的水环境问题日益严峻。作为一种高效的高级氧化技术(Advanced Oxidation Process,AOPs),过硫酸盐(Persulfate,PS)活化技术近年来得到了研究者们的广泛关注。目前,大量研究致力于开发廉价高效的催化剂用于活化PS,以及探索PS活化体系的作用机理。在众多PS活化剂中,生物炭不仅和其他非金属催化剂一样能规避金属浸出的问题,还具有
空间众包(Spatial crowdsourcing)是一种基于位置信息的众包服务模式,通常其任务匹配流程是工作者(Worker)根据自己的工作范围选择由请求者(Requester)外包的任务,然后前往所需的地点完成该任务以获取报酬,如美团、滴滴打车等平台。这类服务的便利性和快捷性都积极地推进了空间众包的发展和普及,也促进了相关的学术研究。但是由于近几年频发的个人信息泄露时间,人们开始对平台数据隐