WKMeans与SMOTE结合的不平衡数据过采样方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:orientaladam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对SMOTE方法对所有少数类样本进行过采样的缺陷,提出一种基于特征加权与聚类融合的过采样方法(WKMeans-SMOTE),由此进行不平衡数据分类.考虑到不同特征权重对聚类结果的影响程度不同,选择特征加权的聚类算法对原始数据集进行聚类,并多次改变初始簇中心生成不同的聚类结果;根据簇标签匹配方法将不同的聚类结果进行匹配,引进“聚类一致性系数”筛选出处于少数类边界的样本;对筛选出的少数类样本进行SMOTE过采样,并采用C A RT决策树方法作为基分类器,对新的少数类样本与所有的多数类样本进行训练.实验结果表明,与现有的SMOTE、Borderline-SMOTE和ADASYN等过采样方法相比,所提出的WKMeans-SMOTE方法在分类性能上有一定的提升.
其他文献
随着组学新测序技术的不断涌现和推广,产生了大量的组学数据,这些数据对人们深入研究和揭示生命奥秘有着极重要的意义.利用多组学数据整合技术分析生命科学问题可获得更丰富更全面的生命系统相关信息,已成为研究者探索生命机制的新方向.介绍了多组学数据整合分析的研究背景和研究意义,综述了近年来多组学数据整合分析的方法和相关领域的应用研究,探讨了多组学数据整合分析方法当前所存在的问题以及未来展望.
近年来,农产品安全问题日益严峻,传统的农产品追溯体系面临公信力缺失、监管困境和扩展性问题,农产品质量安全追溯迫在眉睫.随着区块链技术不断发展,其具有的分布式、去中心化、不可篡改、可追溯等特性在改善农产品溯源系统数据安全性、透明性等方面发挥着重要作用,并受到了各个行业的广泛关注.在简述可追溯性和追溯系统概念的基础上,介绍物联网和区块链技术,并探讨了当前国内外学者将区块链和物联网框架融合应用到农产品溯源中的一些相关研究,同时阐述了溯源系统在物联网与区块链结合下带来的安全、可靠、透明等好处及面临可扩展性、效率问
图像质量评价是对图像或视频的视觉质量的一种度量,主要分析了最近10年图像质量评价算法的研究情况.介绍了图像质量评价算法的衡量指标以及常用的图像质量评价数据集,对图像质量评价方法的分类做了阐述,重点分析了基于深度学习技术的图像质量评价算法.目前,该类算法的基础模型主要包括深度卷积神经网络、深度生成对抗网络和变换器,其性能通常高于传统的图像质量评价算法.描述了基于深度学习技术的图像质量评价算法的原理,重点介绍了基于深度生成对抗网络的无参考图像质量评价算法,通过增强对抗学习强度提高模拟参考图的可靠性.深度学习技
目标检测技术应用广泛,现有的基于计算机视觉的目标检测方法由于目标遮挡、光照强弱等因素难以适应复杂场景的需求.而人脑的高级认知能力和快速感知能力在处理复杂情况时具有一定的优势.基于事件相关电位(Event-Related Potentials,ERP)的脑机接口(Brain Computer Interface,BCI)系统与特定事件相关,可检测独立于自发脑电的高级认知活动,是当前人工智能领域的研究热点之一.针对基于ERP信号的目标检测各个环节进行了研究现状的全面归纳,梳理了以快速串行视觉呈现(Rapid
综述了基于深度学习的三维点云语义分割方法的研究进展.利用文献分析法,按照数据的表现形式对基于深度学习的三维点云语义分割的方法进行阐述.探讨了近些年的国内外发展现状,分析了目前相关方法的优缺点,并展望了未来发展的趋势.深度学习的加入在点云语义分割技术研究上发挥着越来越重要的作用,推动了制造与包装等领域趋向于智能信息化.根据各类方法的优缺点,利用深度学习技术构建出基于投影、体素、多视图以及直接基于点云的2D-3D组合语义分割框架模型是未来的一个重要研究方向.
针对代理辅助进化算法在减少昂贵适应度评估时难以通过少量样本点构造高质量代理模型的问题,提出异构集成代理辅助多目标粒子群优化算法.该方法通过使用加权平均法将Kriging模型和径向基函数网络模型组合成高精度的异构集成模型,达到增强算法处理不确定性信息能力的目的.基于集成学习的两种代理模型分别应用于全局搜索和局部搜索,在多目标粒子群优化算法框架基础上,新提出的方法为每个目标函数自适应地构造了异构集成模型,利用其模型的非支配解来指导粒子群的更新,得出目标函数的最优解集.实验结果表明,所提方法提高了代理模型的搜索
深度学习在完成一些难度极高的任务中展现了惊人的能力,但深度神经网络难以避免对刻意添加了扰动的样本(称为“对抗样本”)进行错误的分类.“对抗样本”逐渐成为深度学习安全领域的研究热点.研究对抗样本产生的原因和作用机理,有助于从安全性和鲁棒性方面优化模型.在掌握对抗样本原理的基础上,对经典对抗样本攻击方法进行分类总结,根据不同的攻击原理将攻击方法分为白盒攻击与黑盒攻击两个大类,并引入非特定目标攻击、特定目标攻击、全像素添加扰动攻击和部分像素添加扰动攻击等细类.在ImageNet数据集上对几种典型攻击方法进行复现
对于多目标路径优化问题(MOPOP),提出了一种求解完整(非部分或近似的)Pareto最优面的涟漪扩散算法(RSA).新的涟漪扩散算法是在路网中模拟一场涟漪接力赛,通过对到达终点的涟漪进行回溯来确定完整的Pareto前沿.RSA类似于大多数受自然启发的方法,本质上是一个基于微观智体的自下而上的仿真模型.通过定义微观智体的行为,即路网中的节点根据到达的Pareto非占优涟漪产生新的涟漪,涟漪接力赛在宏观层面的表现为输出完整的Pareto前沿.而且,RSA仅需一次涟漪接力赛就可以找到一对多问题中每个MOPOP
结构熵作为复杂网络无序程度度量的重要手段,反映了网络内结构的异质性.传统结构熵在刻画复杂网络异构性时只关注网络结构中的“点”和“边”,表征注意力流网络结构的异构性特征时存在不足.对此,基于在线点击行为数据构建注意力流网络,在传统网络结构熵的基础上,综合考虑站点的边权重、站点的总停留时长等网络特征属性,定义了结构熵模型.进而,从站点的流强度、吸引注意力的能力等指标计算站点综合力,提出了注意力流网络异构性度量算法ANSE.实验结果表明,提出的结构熵可以有效地反映注意力流网络的结构特征,准确地度量注意力流网络中
由一阶因果、反因果微分的定义推导出Caputo分数阶因果、反因果微积分,并在此基础上定义Caputo分数阶非因果微积分.将它们分别应用于BP神经网络的反向传播过程中对权值进行处理,产生了Caputo分数阶因果、反因果和非因果BP神经网络模型.为了方便对比,将这些模型分别对波士顿房屋数据集和MNIST数据集进行处理.模拟结果表明:在整数阶因果、反因果和非因果的模型之间,整数阶非因果模型的结果最好;分数阶因果、反因果和非因果模型分别与其相应的整数阶模型进行比较,得出分数阶模型得到的准确率比整数阶的高;在分数阶