基于卷积神经网络的非平衡数据分类问题研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:fl908720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡问题普遍存在于各个应用领域,比如医学诊断、文本分类、故障监测等。传统的分类方法未考虑到数据的不平衡性,会导致非平衡数据的分类效果不理想。当前大数据背景下,深度学习作为机器学习的一个新的研究方向,在数据挖掘等领域取得了显著成果。其中的代表算法卷积神经网络具有表征学习的能力,是一种高效的数据挖掘工具。面对非平衡问题,应用卷积神经网络进行分类任务时,其训练过程若受到非平衡因素的不利影响,会降低少数类的分类准确率。此外,在评估分类算法的性能时,并非所有的评价指标都适用于非平衡问题。针对上述问题,本论文以卷积神经网络为训练模型,将过采样和集成学习算法与卷积神经网络结合,并对卷积神经网络的损失函数进行改进,从数据层面和算法层面研究非平衡问题的解决方案。主要研究工作概述如下:1.针对传统过采样方法容易产生噪声数据的问题,提出了将密度峰值聚类算法和SMOTE算法结合的过采样方法DPCSMOTE。该方法先利用密度峰值算法将输入数据聚类成簇,然后筛选出需要进行过采样的簇,并确定相应的合成样本数量,最后采用SMOTE算法进行过采样。通过在不同数据集上进行实验验证了该方法的有效性。此外,针对非平衡问题,提出了一种基于的评价指标OFm。OFm评价指标既从误分类代价的角度予以少数类识别率更多的关注,也从混淆矩阵的角度考虑多数类识别率的影响,因此更适用于非平衡问题。实验结果表明,OFm评价指标能够在非平衡分类任务中更有效更全面地评估分类算法的性能。2.针对卷积神经网络对非平衡数据分类性能下降的问题,对卷积神经网络的交叉熵损失函数进行改进,提出了一种基于代价敏感思想的损失函数FCELoss应用于卷积神经网络的训练过程。通过对非平衡数据中不同的类别给予不同的权重,并考虑模型输出的预测值与正确标签之间的欧氏距离,赋予多数类和少数类不同的代价损失,使得损失函数更加关注少数类,从而提高卷积神经网络模型对少数类的识别率。在非平衡比率不同的数据集上进行实验,结果表明提出的方法可以提高卷积神经网络模型对非平衡数据的分类性能。3.为了提高非平衡问题中少数类的识别率,提出了一种以卷积神经网络为基分类器的集成学习方法。该方法先将非平衡数据集划分为多个平衡训练子集,用来训练基分类器。在对基分类器训练的过程中,逐渐降低训练子集中分类正确的少数类样本和所有多数类样本的权重,也就相当于增大分类错误的少数类样本的权重,使得这些分类错误的少数类样本在后续训练中受到更多的关注,从而达到提高少数类识别率的目的。非平衡问题中少数类样本往往误分类代价更大,因此,采用上述方法训练基分类器可以让分类错误的少数类样本在训练过程中得到更多的关注,以此来提高分类模型对少数类的识别率。实验结果验证了该算法的有效性。
其他文献
非晶硒具有优异的光电特性,应用于X射线平板探测器。但是当光照作用使非晶硒温度升高时,有可能引起结构弛豫甚至结晶,致其光电性能劣化。非晶态材料的热稳定性与其结构、制备过程中经历的热历史有关。利用压力对硒分子结构的调控作用,快速压致凝固有可能是一种制备高热稳定性非晶硒的新方法。本论文的研究工作是开展硒熔体的快速压致凝固实验,分析表明回收样品的结构为晶体硒。本文针对两种可能的结晶机理进行了实验研究:一是
学位
产业农居既是乡村民居多元化的体现,也是乡村产业建设发展的投影,产业农居的更新是以村民生产生活为导向的农居更新改造工作。近年来,国家大力提倡发展乡村产业,也取得了显著成效,随之而来的是村民生产生活方式的变革,现有产业农居户型平面单一,无法满足乡村产业融合发展下功能空间的复合需求;传统砖混结构缺乏弹性,难以适应不同时期村民家庭人口、产业结构的特征变化,产业农居亟待进行更新改造。在此形势下,本文引入模块
学位
传统村落是中华民族传统文化的重要载体,对现代社会具有多元化的价值与意义,在旅游产业大发展的背景下受到越来越多的关注。但部分传统村落因不适当的开发方式导致自身出现不同程度的问题,旅游开发与传统村落保护之间的矛盾日益显著。因此在旅游开发背景下对传统村落景观设计进行研究是必要的。本文以山西阳泉西锁簧传统村落旅游景观设计为题,探究传统村落旅游景观设计策略。论文首先梳理了国内外传统村落保护与发展以及传统村落
慢性病持续且严重威胁着人类的健康,截至2018年底,我国超过1.8亿老年人患有一种以上的慢性病。老年人慢性病患病率高、病程长,严重影响其生存质量。在家庭养老的模式下,老人常年都处于与慢性病斗争的生存状态,但由于缺乏科学的、系统的慢性病管理方式,其生活质量相对较差。随着社会技术的进步与发展,新兴的互联网技术逐步成熟,智慧技术如何融入适老健康管理,已成为解决中国家庭老年养老问题的关键。本文旨在面向家庭
学位
学位
文冠果(Xanthoceras sorbifolium)与蒜头果(Malania oleifera)是中国特有的含神经酸的木本油料植物,文冠果广泛分别于我国北方但神经酸含量稀少,蒜头果是已知神经酸含量最高的植物,但作为国家二级保护植物,数量稀少。神经酸是组成神经细胞和神经纤维的重要成分白质的核心组成成分,能修复受损伤的神经纤维和促进神经元细胞的再生。本研究使用转录组测序,以文冠果与蒜头果的种子和叶
中国高铁的快速发展,不仅需要支持更高的运行速度,还需要支持更高数据传输速率。2018年3月,北京至沈阳高铁辽宁段全面启动“高速铁路智能关键技术综合实验”,推动中国智能高铁建设,而这离不开高铁无线通信系统的支持。高铁通信已经从仅需支持简单的列控业务转变为需要支持手机、平板、笔记本电脑数据业务的高数据速率时代,这对高铁无线通信系统的容量、带宽、时延、安全等都提出了巨大的挑战。实际上,公众移动通信网络的