提升小类准确度的代价敏感局部泛化误差模型研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:facexy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集主要是可以分为类间的不平衡和类内不平衡。类间不平衡指的是不同类别之间的样本数目差别较大;类内不平衡是指在某一个类别的内部,不同部分的数据分布成不同的簇(Cluster),不同的簇之间样本数目差距较大的情况。因为大多数的传统的机器学习方法默认使用的数据样本相互之间是平等的,并且假设其数据量是相对平衡的,所以数据集不平衡问题的最根本难点是样本的不平衡性往往会显著地影响大多数机器学习方法的性能和学习的结果。当学习不平衡数据集的时候,特别是当数据量非常小,在处理类间不平衡的同时,也可能有类内的不平衡的情况发生,在这样的情况下,传统的机器学习方法可能难以通过简单的学习泛化到未知的样本空间上。在二类问题中,具体的表现是分类器趋向于将样本数目较少(小类)的样本判定成样本数目较多(大类)的样本。本文提出通过一种通过最小化基于代价敏感的局部泛化误差模型(c-LGEM,costsensitive Localized Generalization Error Model)的目标函数的方法来优化神经网络的训练,在保留代价敏感方法在效率上的优势的同时,提升分类器对小类样本的泛化能力。更详细地说,代价敏感局部泛化误差模型被用于最小化小类的样本的泛化误差,但是同时对大类样本仅最小化其训练误差来提升分类器对于小类样本分类的准确率。除此之外,在计算小类样本的代价敏感局部泛化误差之前,使用k-NN先行判断哪些样本点出现在边界上,并通过近邻样本中大类样本的个数用于确定在代价敏感局部泛化误差模型中生成的模拟点的数目,以此为根据优化代价敏感局部泛化误差的计算过程。实验结果囊括了10个UCI数据集和包括本文研究的方法在内的5种方法,并使用G-mean(geometric mean)以及AUC对c-LGEM从整体上进行比较。同时记录了小类样本分类的准确率用于说明本文研究的方法在提升小类样本的准确度上的优势。更进一步探讨了本文研究的代价敏感局部泛化误差模型的作用。
其他文献
目的:研究NUF-2基因表达下调对肝细胞癌的增殖及细胞周期的影响。材料与方法:1.选定HepG2、BEL-7404、SMMC-7721、BEL-7402四种肝癌细胞株与正常肝细胞株HL-7702为研究目标,利用荧光实时定量PCR(qRT-PCR)检验NUF-2在上述细胞中的表达情况;2.挑选NUF-2高表达的肝癌细胞株,通过RNA干扰技术构建抑制NUF-2基因表达的慢病毒载体;3.用慢病毒感染选定
由于采用优化的原型滤波响应,滤波器组多载波(Filter Bank Based Multicarrier,FBMC)的根本优点在于其优秀的频谱密度集中(或等价为旁瓣抑制)特性。由于对用户的同步要求较低,FBMC对于一些异步多用户场景非常有吸引力,如蜂窝系统的上行传输和感知无线电。基于上述背景,本文首先分析并推导了FBMC系统的数学模型,并对FBMC系统中的关键技术:同步技术、信道估计和峰均比(Pe
密集异构网络作为5G系统的关键使能技术之一,可有效提高网络容量与数据传输速率。然而,随着SBSs的大规模密集部署,密集异构网络技术优势的充分发挥与实现必须克服各种技术难
作为第五代移动通信系统的候选关键技术,大规模多输入多输出(Multiple Input Multiple Output,MIMO)技术由于高频谱效率和低发射功耗等优势,得到业界的广泛关注。然而,大规模
传统封闭的网络体系被软件定义网络的分层思想解耦为数据平面、控制平面和应用平面,网络的集中控制与管理在逻辑上得到了实现。集中管控的机制和开放的编程接口增加了SDN管理
作为物联网的关键组成部分之一,机器与机器(Machine to Machine,M2M)通信能够借助无处不在的移动通信网络,无需在人的参与和干扰下实现各种数据测量和采集,完成全自动化的信
目的:检测VEGF-C蛋白在鼻咽癌肿瘤组织中的表达及VEGF-C对人淋巴管内皮细胞生物学行为的影响,分析VEGF-C表达与鼻咽癌临床病理特征的关系,探讨鼻咽癌淋巴转移的机制,为鼻咽癌
间断连接无线网络(Intermittently Connected Wireless Network,ICWN)是一种无需固定网络基础设施且能轻松部署的自组织网络,因此,其多应用于紧急通信建网及军事领域。节点间
青少年是新时代中国特色社会主义事业的建设者和接班人,他们的思想道德建设水平将直接影响到未来中华民族的发展。随着城镇化进程的加快,城中村作为城镇化进程中的产物,发生着翻天覆地的变化。城中村青少年作为青少年群体中的一部分,有着其独特的思想状态和特点。随着物质生活条件逐步提高,他们的视野逐渐开阔,这些状况给城中村青少年的现代教育带来益处的同时,也给城中村的思想道德教育带来了不同程度的负面影响。在这种背景
天发船收高频雷达是一种天波-地波混合体制的新型雷达,该雷达兼具天波雷达、地波雷达和舰载雷达的优点,具有超视距探测、隐身目标探测、超低空探测的优势,因此研究天发船收高频雷达具有重要的战略意义。目标状态估计是天发船收高频雷达数据处理的重要组成部分,在数据处理的过程中起着重要的作用,状态估计算法的性能决定着滤波精度和航迹跟踪效果。本课题针对天发船收高频雷达的工作特点研究该雷达体制下的目标状态估计方法。通