论文部分内容阅读
随着信贷行业的迅速发展和数据挖掘技术的不断进步,传统人工完成的信用风险评估工作正逐步被大数据背景下的机器学习所代替。作为一种有效的分类工具,支持向量机通过对历史样本的学习,可在短时间内构建出一个分类模型,用于对新样本所属类别的判定。严格的数学推理和扎实的统计学基础,使其被越来越多的专家和学者所接纳,同时被广泛应用于工业生产、文本识别、图像分析、入侵检测、广告推荐、管理评估、金融保险、医疗诊断、生命科学等诸多领域。然而在现现实生活中,分类问题中的数据复杂性不断增加,如噪声样本对正常分类的干扰、非均衡数据带来的分类倾向性改变,这些问题的存在使得经典支持向量机分类精度下降。为了更好地将支持向量机应用于实际问题当中,需要结合支持向量机自身性质,充分考虑噪声样本和非均衡数据给分类结果带来的影响,深入分析分类精度下降的原因,从而有针对性地对经典支持向量机模型加以改进,进一步拓宽支持向量机的理论价值和应用价值。本文系统地研究了经典支持向量机的相关理论及其性质,针对支持向量机中的噪声问题和数据非均衡问题分别进行了讨论,并提出同时解决噪声和非均衡数据的改进支持向量机算法,将其应用到小额贷款公司客户信用风险评估的实际案例当中,违约客户识别率有所提高。本文的主要研究内容如下:(1)引入灰色关联度,定义了样本的平均灰色绝对关联度;针对噪声识别过程中支持向量对分类贡献被削弱的问题,提出了基于同类中心和异类中心双参照点的噪声判别方法;给出新的隶属度函数设置具体步骤。(2)针对传统SMOTE算法在处理非均衡数据时对全部少数类样本操作的问题,提出仅对错分样本人工合成的改进思想;引入Random-SMOTE算法,改善新合成样本的分布情况;给出具体非均衡数据下的改进支持向量机算法流程。(3)分析了在使用SMOTE过程中噪声对分类结果的影响;提出一种新型支持向量机算法,首先使用双参照点灰色关联度的噪声判别方法对样本进行筛选,再通过改进SMOTE算法合成新样本;给出组合算法的流程。(4)研究了小额贷款公司对客户进行信用风险评估时面临的问题;构建了信用风险评估指标体系,给出真实案例背景下的各指标违约分布情况;将本文提出的改进支持向量机算法应用到具体数据当中,与其他算法对比违约客户的识别精度。