面向不平衡数据集的分类技术研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:dropmylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对在数据分布不平衡环境下,分类模型难以对样本类别进行高效、精准预测的问题,进行了一系列的研究。首先,对经典的不平衡数据集分类算法进行了分析与总结,对本文所使用的相关知识以及模型评价指标进行了详细叙述。然后,从噪声样本角度考虑,将k近邻的思想引入到噪声样本的识别中,提出KNN噪声样本滤除算法。从过采样角度考虑,针对过采样算法中存在的不足,对SMOTE算法进行改良,提出了基于改进SMOTE的不平衡数据集分类算法。接着,从减少算法运行时间和提升模型预测精度两个角度着手,将聚类算法与SVM算法相结合,提出一种基于聚类与SVM结合的不平衡数据分类算法。最后,在前述工作的基础上,将本文所提出的算法应用到人体姿态分类的实际问题中,提出基于不平衡数据分类的人体姿态分类算法,并进行对比实验验证其性能。在本次研究中,所做的主要工作如下:首先,为提高样本的合成质量,结合k近邻、聚类的思想提出基于改进SMOTE的不平衡数据集分类算法。该算法一方面根据k近邻思想,提出噪声样本识别模型;另一方面为平衡样本信息,同时在过采样过程中保证合成样本质量,该算法引入聚类的思想对合成样本进行及时修正。最后利用Ada Boost算法的优势,对平衡后样本集进行模型训练。通过与几种经典的不平衡分类算法比较,实验结果表明,该算法的分类效果更优、泛化性能更强。然后,从提升分类精准度和减少算法运行时间方面,提出一种基于聚类与SVM结合的不平衡数据分类算法。该算法的中心思想即为通过少数类样本的分布特征,对多数类样本进行欠采样操作。根据少数类样本的分布特点进行类簇的划分,并考虑到噪声样本的干扰问题提出类簇边界的定义。接着,在构建平衡类簇样本集过程中,该算法根据其类簇中所包含样本特点,提出对多数类样本采样的三原则。最后,选择混合核函数的SVM算法在每个平衡类簇样本集中训练分类模型,通过线性组合获得最终分类模型。实验验证表明,该算法不仅有效地提高了整体样本的预测精准度,而且算法的整体运行时间更短。最后,在前述工作的基础上,将本文所提出的算法相结合应用于人体姿态分类的实际应用问题中,提出一种基于不平衡数据分类的人体姿态分类算法。在ARe M人体姿态数据集上,与四种分类算法进行对比实验,结果表明,本文所提出的算法,可以很好地解决在真实人体姿态分布情况下预测精准度较低的问题。
其他文献
猪圆环病毒(Porcine circovirus,PCV)是圆环病毒科圆环病毒属的成员,系无囊膜病毒,其基因组为单股环状DNA。目前发现4种血清型,分别为PCV1、PCV2、PCV3和PCV4。其中,PCV2可引起断奶仔猪发生多系统衰竭综合征,仔猪先天性震颤,怀孕母猪流产,成年猪的皮炎肾病综合征以及呼吸道疾病综合征等,给世界养猪业造成了严重危害。目前,疫苗免疫是防控PCV2的主要手段,现有商品化的
本文基于经济控制的理论,建立了一种描述固定资产动态变化过程的模型,由于在实际的经济过程中往往存在着不确定因素,所以,论文应用马尔可夫跳的理论,建立了基于马尔可夫跳理
植物生长发育模式的不同使植物具有多种多样的形态,生长素的极性运输在植物组织形态建成过程中起到了很重要的作用。拟南芥和荠菜都属于十字花科草本植物,二者均为两心皮,但
本文我们研究两类双曲型偏微分方程的衰减性质。首先,我们研究了具有粘性的拟线性波方程的解的衰减性,在研究过程中主要使用了能量扰动的方法,并且使用比较不等式建立了与外
从某种意义来说,荧光蛋白的发现和应用为生物研究带来了革新。以GFP为代表,陆续被发现和应用的荧光蛋白光谱范围几乎覆盖了整个可见光区域,被广泛应用于基因的表达调控、蛋白质
背景:踇外翻是一种常见的情况,估计影响多达23%的成年人,随着生活方式的改变,其发病率呈现逐年增长的趋势,如不能及时治疗,将对患者的生活质量造成严重影响,面对庞大的患者群体,如何安全、有效的矫正踇外翻畸形,并降低手术带来的创伤及并发症,具有很大的研究价值。从1871年外科技术首次被描述以来,已经有许多踇外翻手术方式被提出。但是没有任何一种方法可以解决所有类型的踇外翻问题。其中第一跖骨远端Chevr
人参为五加科人参属植物,药用历史悠久。研究表明人参皂苷是人参的主要次生代谢产物,具有广泛的生理和药理活性。但人参中人参皂苷含量较低,限制了人参皂苷的利用。近些年来,利用
目的:探讨室性早搏(Premature Ventricular Contraction,PVC)患者合并焦虑抑郁的危险因素,起到未病先防,既病防变的作用;了解PVC合并焦虑抑郁患者的中医证素分布特点,以期为中医辨证论治提供理论依据和数据支持。方法:本研究采用以医院为基础的横断面连续病例研究方法,调查2019年6月-2019年8月就诊于北京中医药大学东直门医院通州院区门诊、住院病人中完成24小时动态
畜禽养殖业是我国农业经济的支柱产业,而由畜禽养殖废水导致的农业面源污染已经成为我国最大的污染源,NH_4+-N是畜禽养殖废水的主要污染物,氮素的去除作为环境领域的研究热点,生物脱氮以其处理成本低,效果好,无二次污染等特点被广泛应用。异养硝化-好氧反硝化细菌的出现,打破了反硝化作用只能在厌氧条件下发生的传统生物脱氮理论,使得硝化作用和反硝化作用均可在好氧条件下完成,具有提高脱氮效率和降低处理成本的潜
酰基肽水解酶(acylpeptide hydrolase, APH)可催化水解N端封闭的多肽,释放出N-酰化的氨基酸。由于APH受到有机磷(OP)化合物的抑制比乙酰胆碱酯酶更敏感,因此可作为阿尔茨海默氏病的