非均衡数据下基于SMOTE-SVM的员工离职预测研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:youpi100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的高速发展和就业选择机会的增多,很多企业会面临员工流失的问题,从而对业务、成本、团队稳定和核心技术等造成负面影响。为降低员工离职率,当前企业大都基于统计分析使用支持度量和结构方程模型等方法来对员工离职趋势进行分析。这些方法通常仅对个人能力、薪资、工作环境和工作满意度等低维信息进行处理,没有考虑大数据环境下的员工其如年龄、性别、加班情况、旅游情况和公司满意度等诸多相关高维特征信息。而现有基于SVM的方法在对离职员工的高维特征数据集进行分类预测时,会受到员工数据正负样本数量具有非平衡性的影响,从而使得分类超平面偏向具有离职意向的少数类员工样本,导致对有离职意向的少数类样本的预测准确率下降、边界模糊和噪声污染等问题。本文针对目前SVM分类算法所存在的对非均衡数据集分类效果有限、错分代价相同以及泛化能力较弱等问题,分别提出了改进的自适应模糊C均值聚类算法(AFCM),并结合SMOTE采样算法,对离职员工数据集进行先聚类后采样(AFCM-SMOTE)来合成更为准确的新离职员工样本。再通过利用SVM算法的核技巧,提出基于核空间的聚类过采样算法(K-AFCM-SMOTE-SVM),并结合集成学习方法提出了针对不同类型企业数据的综合离职预测算法模型。论文研究工作的主要内容包括:(1)针对SVM算法所存在的面对企业员工的不平衡数据集时,分类准确率较低的问题,引入SMOTE过采样方法对企业员工数据集进行平衡度改善,并通过研究提出了一种改进的代价敏感加权算法,改善了SVM算法在分类过程对新生成的样本数据在分类过程中没有错误分类代价的缺陷。(2)围绕企业离职员工数据呈现多中心聚拢性的特点,论文在对离职员工数据集进行采样前,通过使用模糊c均值聚类算法来寻找离职样本的中心点,为了能够更准确地确定离职员工聚类类别的数值,提出了改进的聚类FCM算法,再结合SMOTE算法生成新的样本,使得新生成的离职员工样本更贴近真实数据,大大减少了噪音数据生成的几率。并在此基础上,利用SVM的核函数技巧将数据转换到高维特征空间后,再进行聚类和采样,得到了一种基于核空间的聚类过采样支持向量机分类算法K-AFCM-SMOTE-SVM,将原本分离的AFCM-SMOTE算法和SVM分类过程结合在一起,从而解决了原来先对离职员工数据进行采样的处理方法对SVM分类结果的影响很小的问题,并通过实验证明该方法对SVM分类准确率有很大的提升。(3)为了进一步提高K-AFCM-SMOTE-SVM算法在面对不同类型的企业数据时的分类准确率,本文引入了集成学习算法来增加SVM的泛化能力,并在原有的Ada Boost算法基础上,提出了基于新的构造评价的集成学习算法PIBoost,该算法改变了F-measure在计算准确率时将正类错分情况和负类错分情况的损失同等对待,因为在不平衡数据分类时,两者的重要性是不相同的,并结合了之前提出的全样本代价敏感加权算法,大大提升了SVM模型面对不同数据集时的分类准确率。实验证明论文所提出的基于核空间的AFCM-SMOTE-SVM算法在面对高度不平衡的企业员工数据时,分类结果F-measure和G-means得到了明显的提升,改善了只使用SMOTE采样方法生成的样本过于随机,容易产生噪音数据的缺陷,大大提升了采样结果的精确性。此外,论文提出了改进的集成学习算法也能有效地解决在针对不同类型的企业员工数据集时存在过拟合风险和泛化能力弱等缺陷。论文的研究成果在企业离职预测和员工管理等方面有较好的实践价值和应用前景。
其他文献
<正>党的十七届五中全会明确指出,着力保障和改善民生,必须逐步完善符合国情、比较完整、覆盖城乡、可持续的基本公共服务体系,推进基本公共服务均等化。基本公共文化服务体系是基本公共服务体系不可或缺的组成部分,包括公共图书馆、博物馆、艺术馆等公共文化服务机构等。党的十九届五中全会明确提出到2035年建成文化强国的远景目标,并强调在“十四五”规划时期推进社会主义文化强国建设。公共图书馆承担着培育社会文明、
期刊
<正>“图书馆是一个生长着的有机体”[1],早在90年前,阮冈纳赞就为图书馆的发展提出了准确的描绘。随着时代变迁,图书馆也在不断变革。清末,康有为、梁启超等开放的知识分子就针对当时国内的知识封闭问题提出上海强学会藏书楼“广见闻而开风气”的建设愿景[2];民国时期,沈祖荣、杜定友、李小缘、刘国钧等图书馆学家都提出了图书馆要成为宣传文化、启迪民智、
期刊
2016年1月1日,“全面二孩”生育政策在全国范围内正式实施。通过聚焦育龄群体对“全面二孩”政策的预期生育行为,利用2014、2016、2018年中国家庭追踪调查(CFPS)数据,采用混合截面双重差分(DID)和倾向得分匹配(PSM)相结合的方法,估计了对地方政府的评价如何影响育龄群体对“全面二孩”政策的预期生育反应。实证结果发现育龄群体会对未来生育政策做出预期反应,育龄群体对政府的信任是一种策略
马克思恩格斯人口理论在马克思主义理论体系中占有重要地位,是中国共产党解决人口问题、制定人口政策的理论依据。中国共产党立足我国具体国情,把马克思恩格斯人口理论运用于我国人口政策制定过程中,既推动了马克思恩格斯人口理论中国化的实践历程,又制定出了符合我国国情的人口政策。从新中国成立以来人口政策的演变看,马克思恩格斯人口理论对我国人口政策的制定和实施具有重要的启示意义。
近年来,针灸在治疗慢性呼吸系统疾病方面取得了较大进展,相关的机制研究也不断受到重视。文章基于国内外相关文献,就针灸治疗支气管哮喘、慢性阻塞性肺疾病(COPD)、肺间质纤维化、肺癌等作用机制研究进行总结,发现针灸治疗哮喘机制主要集中在减轻炎症、降低气道阻力、提高免疫方面;治疗COPD机制主要集中在抗炎、抑制氧化应激方面;治疗肺纤维化机制主要集中在抑制细胞外基质积聚及上皮-间质转化方面。同时也指出了针
<正>基本公共服务是由政府主导、保障全体公民生存和发展基本需要、与经济社会发展水平相适应的公共服务。根据《国家基本公共服务标准(2021年版)》(以下简称《标准》),我国现阶段的基本公共服务涵盖了幼有所育、学有所教、劳有所得、病有所医、老有所养、住有所居、弱有所扶、优军服务保障和文体服务保障等领域。
期刊
<正>公共图书馆是国家公共服务体系的重要组成部分。从公共管理角度看,社会管理者将权衡包括公共图书馆在内的各个公共服务体系的发展优先顺序,对各类公共服务机构进行不同的资金和政策支持。对于公共服务类型的界定,各国根据本国国情有自己的框架。2021年,我国政府发布了首份公共服务规划——《“十四五”公共服务规划》,描述了国家公共服务体系框架。该规划将我国公共服务定义为幼有所育、学有所教、劳有所得、病有所医
期刊
鸽Ⅰ型副黏病毒(Pigeon paramyxoviruses type 1,PPMV-1)又称鸽新城疫病毒,常引起鸽新城疫,是危害养鸽业的重要病原之一。PPMV-1是新城疫病毒(Newcastle disease virus,NDV)在鸽群中的抗原变异毒株,目前国内常见的PPMV-1属于NDV基因VⅠ型。近年来,鸽新城疫在我国多个省份均有暴发,感染鸽的发病率和死亡率都较高,给养鸽业造成巨大损失。接
电影海报作为电影的衍生品之一,不仅承担了电影宣传的功能,同时也具有独立的审美价值。新世纪中国电影海报在继承中国传统文化的基础上,也借鉴了其他国家优秀海报的设计经验,显示出了鲜明的时代特征和地域文化特征。本文以2000年至2019年的中国电影海报作为主要研究对象,以其表现出的审美特征为切入视角,对新世纪中国电影海报的审美价值做出较为全面的认知,并探析造成这种美学特征的成因。本文共包括五个章节。第一章