基于互联网金融数据的个人信用评分模型研究及应用

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:kikwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展正在影响国内大量人民的生活,其中互联网金融发展速度特别快,但该部分产业目前面临的一个巨大挑战是如何评估个人信用风险状况。传统信用风险评估对于传统央行数据依赖较重,目前央行征信系统中存在信贷记录的人仅占全国人数的20%。而互联网大数据则具有覆盖面广的优点,如果能够针对用户行为特点构造多维度的用户画像,则可以为央行征信系统信贷无法支持的用户提供信用评估。大数据在信用评估的应用也存在一定的困难,即不同来源的数据之间的独有特征相差较大,主要是由于大数据存在以下特点:1、数据质量低,2、覆盖面广,3、单个变量的相关性低。不同于传统风险模型采用的强相关变量,大数据基本都是弱相关变量,因此对模型的准确性有更高的要求。传统信用风险评估模型的构建逻辑是利用行业精英的意见构造征信模型,再配合简单的统计模型方法得到最终结果,然而在新的大数据情景下,原有的方法由于维度较高已经不再适用,需要新的一套解决方案。针对现实互联网金融客户信用评分业务中数据维度高和特征稀疏问题,本文采用了分组建模思想,基于IV值提出了BIV值特征筛选方法和一种基于逻辑回归、随机森林、Catboost的加权平均模型。研究发现分组建模减少了特征稀疏问题,改进IV值显示了各个特征对于结果的影响并能够指出其突变阈值,加权平均模型准确率比每个单模型准确率更高。本文在国内某个金融机构提供的脱敏数据上进行了模型效果实证,发现直接建模的AUC为0.56,应用LRC建模方法的AUC为0.74,效果提升明显。
其他文献
分析了绥德县农业用水存在的突出问题,总结了绥德节水农业的发展思路,提出了对策,以确保该县节水农业的稳定发展。