不平衡数据中基于异类k距离的边界混合采样

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:cxzclong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集中,样本的分布位置对于决策边界具有差异性,传统的采样方法没有根据样本位置做区别化采样处理。为此提出一种不平衡数据中基于异类k距离的边界混合采样算法(BHSK)。通过异类k距离识别出边界集;再根据支持度将边界少数类样本细分为三类,分别采用不同的过采样方法和过采样倍率,根据少数类样本的不同重要性进行过采样,生成更具有信息的样本点;根据异类k距离删除部分非边界多数类样本点。实验结果表明,该算法在最小距离分类法下的少数类识别性能较几种常见的采样算法提高了1%~11%,验证了其有效性。
其他文献
在满足交接点处的露点要求下,为优化天然气露点控制系统能耗,采用HYSYS建立稳态模型,对影响露点的关键参数,包括原料气压力和温度、三甘醇循环量、重沸器温度、汽提气流量、J
为有效解决岳城煤矿东轨大巷围岩变形严重、巷道底鼓等问题,提出了"深孔锚索+注浆加固"的深部条件下大巷注浆加固方案,通过现场围岩观测和钻孔窥视等方式,对加固效果进行了现
针对多机器人任务分配及路径规划问题,提出一种改进布谷鸟搜索算法求解多机器人任务分配及路径规划方法。根据任务点的环境信息和在其中寻找最佳机器人位置建立数学模型,并使用改进布谷鸟搜索算法求解任务分配及路径规划。改进的策略中融合了遗传算子、2-opt、模拟退火算法的Metropolis准则和插入、交换、逆序方法。不同规模的仿真实验表明,该方法能有效实现多机器人任务分配及路径规划问题,并为多机器人的续航能
目前我国正处于飞速发展的关键时期,工程项目建设环节中刚性需求仍然很大,所以强化工程造价管理对于社会、经济和民生等多方面发展都可以起到积极影响。而建筑工程造价是当前
本文结合了某特大桥大跨度连续梁施工实例,就预应力张拉的管道摩阻损失参数值的测试方法进行了阐述。为了获得预应力管道的实际管道偏差系数和管道摩阻系数,还详细介绍了采用
国内天然气产量虽然增长迅速,但仍然满足不了急剧增长的消费率,补充非常规天然气,对于缓解国内天然气短缺、优化能源结构尤为重要。中国煤层气资源丰富,但利用率极低,尤其是
低碳饮食是控制碳排放的重要举措,高校是宣传低碳饮食理念的重要阵地。本文主要通过问卷调查的方式,探讨天津理工大学在校生对低碳饮食的认知及行为,根据调查结果提出针对性
为探究大采高强扰动工作面煤壁片帮的控制方法,以李村煤矿1306综采面为工程背景,研究了"棕绳+注浆"的柔性加固技术。现场应用实践显示煤壁片帮的深度、高度和范围均大幅度减
现有的角色挖掘算法只为追求得到最小角色集的挖掘结果,并没有考虑到系统中的职责分离(Separation of Duty,SoD),而SoD是维护系统安全的重要约束。对此,提出一种基于职责分离的角色挖掘算法。将用户权限关系转化成布尔矩阵表示,利用权限分组的方法在角色挖掘过程中为角色赋予SoD约束信息。生成静态互斥角色t-t SMER(Statically Mutually Exclusive Rol
采用单因子随机设计,研究添加不同比例的槐(Sophora japonica)花粉对白三叶(Trifolium repens)青贮发酵品质的影响,以期为槐花应用于青贮饲料生产提供科学依据。分别设置白三