论文部分内容阅读
目前个人信用评级建模的数据呈现出高维度的特点,其中的无关变量和冗余变量对模型的简洁性、训练时间和预测精度都会产生不利影响,文章利用数据离散化的方法设计了一种新的变量选择方法,将最终被合并为一个区间的变量剔除,最后利用Logistic回归对变量选择前后模型的拟合情况、预测情况和误判概率进行了比较。结果表明这种方法对连续和离散的有序变量都具有良好的筛选作用,可以与目前信用评分中的IV统计量原则、Gini指数原则和卡方检验等离散变量的筛选方法互为补充。