论文部分内容阅读
人才的流失尤其是关键人才的流失将对企业造成很大影响。企业的关键技术、管理运营体系、客户资源等一般上都被关键人才所掌握,因而他们的离职不仅会造成企业业务和生产短时间内不可估量的损失,也会增加不必要的成本[1]。所以预测出员工离职的概率,对那些有离职倾向的人员加以引导,避免人才流失,变得极其重要[1]。应用机器学习算法和统计学相关知识计算员工离职的概率,探索哪些因素是导致离职的决定性因素及其对应的影响关系,从而可以推断出哪些人最有离职的倾向,企业就可以提前作出应对策略,尽量的避免这种事情的发生,同时调整公司的用人制度和政策,如果员工离职纯属个人原因,公司应该提前准备后备人才,以便随时可以顶岗,公司不会因个别人才的流失而受到难以补救的损失。凡事预则立不预则废,从数据中看到更深的层次,挖掘出内在的问题,从而提前采取措施,可以避免造成更多的损失。”本文针对企业员工离职的预测分析问题,利用机器学习的梯度提升分类树(GBDT)算法构建员工离职预测模型,预测企业员工是否会离职,并且分析总结出影响员工离职的几种重要因素,比如薪资水平,年龄等,为企业做出预警,辅助人力资源团队进行关键的干预工作,让管理层指导哪些因素影响了“留人”,反过来促进企业做好“选人”“育人”“用人”。本文选择IBM Watson Analytics分析平台上分享的数据进行实证分析。建模前,我们对原始数据进行了相关预处理,包括处理脏数据、数据归一化、对属性变量的独热编码。因为原始数据样本倾斜会导致模型对少数类样本的分类性能下降,因此采用smote算法进行样本倾斜处理,其中对属性变量的采样结果进行了四舍五入处理使得数据更加符合实际意义,也尝试了一种新的代价加权法处理样本倾斜。对于模型的调优我们采取了一套网格搜索法挑选出一系列最优的参数,利用混淆矩阵和ROC曲线评价模型的整体性能;最后根据梯度提升分类树决定的几个重要性特征,分别研究了离职与这些影响因素的关系,并对用人单位做出了一些简单的总结和建议。