基于不平衡样本下 Stacking集成方法的贷前风控研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:guoyafeigood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年我国的不良贷款余额和不良贷款率持续升高,风险控制将直接影响金融行业的发展与稳定。贷前风控是风险控制的第一道防线,在贷款前预测贷款人是否会违约能有效降低贷款人违约带来的损失。传统的贷前风控依靠人工审核,即人为主观判断是否予以贷款,这种方式在实时性和准确性上无法满足业务需求。随着大数据,统计学,机器学习的发展,利用风控建模的手段解决风控问题成为主流。通过对用户数据进行分析建模,可以精准高效地预测违约用户,减少不良贷款的发生,降低企业损失,助力金融行业蓬勃发展。本文利用Lending Club贷款平台提供的数据集,首先从平台的维度和客户的维度对数据进行可视化分析和分组描述统计分析来认识数据,再进行数据清洗,对清洗后的数据进行特征选择。在特征选择阶段主要使用递归特征选择实现特征的降维,得到最终参与建模的特征个数和最优特征子集。针对样本中出现的违约样本和未违约样本的不平衡问题,分别采用过采样,欠采样和混合采样方法,比较不同采样方法在随机森林,GBDT,XGBOOST和LightGBM上的预测性能,并选择预测性能最好的采样方法,在此采样方法下将随机森林,GBDT,XGBOOST和LightGBM进行Stacking集成,将Stacking集成结果与单个的模型进行预测性能上的比较。本文得出的结论是:(1)使用特征选择,降低了特征维度的同时使模型达到了较高的预测性能,为贷前风控指标选取提供了参考。(2)不平衡样本处理中TomekLinks欠采样方法在随机森林,GBDT,XGBOOST和LightGBM上AUC值和F1值均最高,进而选择TomekLinks欠采样解决样本不平衡问题。(3)将随机森林,GBDT,XGBOOST和LightGBM这四个模型进行Stacking集成后的模型效果与四个单个模型对比,发现Stacking集成的精确率,召回率,F1值和AUC值均优于四个模型,验证了 Stacking集成的优越性。
其他文献
采用MC33035专用芯片设计的无刷直流电机控制器设计制作比较简单,保护功能完善,工作性能稳定,组成的系统所需外围电路简单,抗干扰能力强,特别适用于工作环境恶劣,对控制器体积,价格性能比要求较高的场合。而采用单片机设计的控制器,可以采用多种控制方法进行控制,并且可通过通讯接口与其它控制系统进行协调工作,特别实用于位置控制,稳定的转速控制等自动控制系统。
<正>自新冠肺炎疫情暴发以来,为充分发挥货币政策工具稳经济质效的作用,中国人民银行创新利用结构性货币政策工具做好“加法”。本文对当前创新性货币政策工具的使用情况进行梳理,探讨其在央行资产负债表的体现,通过分析2018年以来央行资产负债表的相关指标变化情况,发现创新性货币政策工具在支持经济复苏中起到显著的“四两拨千斤”的撬动作用。
期刊
地应力预测在油气勘探中扮演着越来越重要的角色,能够在油气勘探开发的各个环节发挥作用,对非常规油气藏的开发更是不可或缺。地震勘探是油气勘探过程中必不可少的环节,技术成熟,勘探精度高,综合油气勘探开发的成本、范围、精度,通过地震方法进行地应力预测成为当前炙手可热的研究方向,有着巨大的发展前景。本文通过使用地震反演的方法来获取地震弹性参数,达到地应力预测的目的,并取得了很好的应用效果,为地震方法预测地应
旨在分析自然发酵下,不同发酵时间、温度和盐浓度的萝卜泡菜中生物胺含量变化规律以及不同发酵时间下泡菜感官品质的变化情况。采用家庭自制泡菜的制作工艺,在不同发酵条件下进行泡菜制作。对萝卜泡菜样品进行捣碎、研磨、提取、衍生等处理后,采用高效液相色谱法测定生物胺含量。结果表明,随着发酵时间的增加,萝卜泡菜中总生物胺含量先增加再缓慢减少。其中,在第11天时,含量最高(281.28 mg/kg)。在相同发酵时
在中国当前的经济市场中,中小企业在促进国民经济发展、解决就业难题、提高人民收入、调整工业布局等问题上发挥重要作用。为此,我国政府采取了多种措施为中小企业提供解决融资需求的有效渠道。河南作为一个中小企业众多的省份,也在大力推进对中小企业的各种帮扶政策,要求金融机构改变传统融资形式,创新融资模式,为中小企业的资金需求提供更为精准的金融支持。供应链金融是由供应链管理与财务理论相结合而产生的一种以产业为基
随着社会和时代的发展,我国的经济实力得到提升。同时我国采矿产业迅猛发展,特别是在山西、新疆、内蒙古等地区。作为最重要的能源之一的煤炭,其需求量变得越来越大,而其采矿事业也需要变得更加完善。随着的采矿深入发展,工程中巷道掘进和支护技术的使用也越来越吸引到大家的注意力。但也正是经济的发展,为了使效益最大化,采矿公司倾向于在采矿过程中减少支护工作,这对采矿工作的安全构成了风险。作为采矿事业当中重要的一部
对于如今的金融机构如何迅速地对信贷风险做出准确判断并进行有效地控制是十分关键的。基于LightGBM算法建立信贷风控模型,对借贷人的个人信息进行数据的清洗筛选和特征衍生。融合pair-wise算法,可以优化特征的排序,防止过拟合。实验结果表明,相较于XGBoost分类算法,基于LightGBM算法建立的信贷风控模型的预测精度提高12.3%。该算法的信贷风控模型占用内存较少,支持并行处理,具有一定的
现在电机由变频器控制的情况越来越多,变频器控制带来的电机轴电流对轴承的电腐蚀问题也越来越常见。本文通过在作者所在公司的一个项目中的发现和解决电机轴承电腐蚀问题的过程,分析了电机轴电压、轴电流产生的原因,阐述了电机轴承电腐蚀的判断方法,提出和验证了解决电机轴承电腐蚀问题的方法。
目的:分析儿科门诊、急诊中成药的合理用药情况。方法:选取儿科门诊、急诊2020年12月—2021年11月开出的所有中成药处方,共17 274张,统计分析处方中患儿的性别、年龄、诊断、中医证型、处方内容、用药剂量。并从中随机抽取5 000张处方,由医院处方点评组对处方进行点评。结果:男性患儿的处方多于女性患儿;2~3岁患儿的处方数量最多;主要用于治疗上呼吸道感染。使用数量排在前10位的中成药为肺力咳