【摘 要】
:
在信贷审批实践中,只有在历史上曾经被批准授予贷款的客户才会产生贷后还款信息。信用评分模型通常建立在这部分拥有违约与否标记的“接受样本”之上。被拒绝授予贷款的客户,由于缺乏贷后还款信息而被作为“拒绝样本”,无法应用于建模。然而,信用评分模型的应用对象是将来会申请贷款的所有客户。经过筛选后得到的接受样本显然无法代表模型应用的总体,由此带来的样本偏差问题会导致训练的模型有偏,在应用过程中缺乏准确性和稳定
论文部分内容阅读
在信贷审批实践中,只有在历史上曾经被批准授予贷款的客户才会产生贷后还款信息。信用评分模型通常建立在这部分拥有违约与否标记的“接受样本”之上。被拒绝授予贷款的客户,由于缺乏贷后还款信息而被作为“拒绝样本”,无法应用于建模。然而,信用评分模型的应用对象是将来会申请贷款的所有客户。经过筛选后得到的接受样本显然无法代表模型应用的总体,由此带来的样本偏差问题会导致训练的模型有偏,在应用过程中缺乏准确性和稳定性。拒绝推断是一种用于推断拒绝样本的标记,从而将其加入到建模样本中,以提高信用评分模型预测效果的技术。
本文将拒绝推断问题视为机器学习问题,在半监督学习和集成学习的理论基础上提出了BaggingCo-TrainingwithOptimizedThreshold算法,简称BCT算法。针对拒绝推断问题中接受样本占比低、样本类别比例不平衡、模型必须能够快速迭代更新等特性,引入动态Bagging、分类阈值参数和早停止条件,对传统的半监督协同训练算法进行改进,使其适用于处理信用评分领域中拒绝推断问题。
本文设计了多个实验来验证BCT算法性能的优良性。首先在模拟数据集上测试动态Bagging、分类阈值参数和早停止条件对于算法性能的提升效果。然后在5个真实数据集上对比BCT算法与其他有监督学习、半监督学习算法的性能,并在此基础上研究3个重要参数对于算法性能的影响机制。最后,将算法实际应用于拒绝推断,通过设计模拟实验和构建模型评价体系,来验证BCT算法处理拒绝推断问题的效果。
实验结果表明,动态Bagging、分类阈值参数和早停止条件能够有针对性地应对信用评分领域中拒绝推断问题的特性。BCT算法的性能在不同的数据集和拒绝比例下,均优于参与对比的其他有监督学习和半监督学习算法。将算法应用于拒绝推断问题后,通过挖掘拒绝样本中蕴含的信息,开发出的信用评分模型具备较强的区分能力和充分的稳定性,符合风控人员对于各项模型评价指标的要求。
其他文献
现代金融学理论主要以资本资产定价理论为核心,该理论认为投资者是理性的,严格按照资产定价模型的规则进行多样化的投资,并将从有效边界的某处选择投资组合;资本市场是完全市场,没有任何磨擦阻碍投资。但是自20世纪80年代以来,出现了诸如“波动性之谜”、“规模优先效应”等金融异象说明资产价格并不一定是随机游走的,这与有效市场理论相矛盾。在日常接触股票类评论信息时,总能听到市场投资者情绪和和流动性相关的话题,
随着我国经济的快速发展,金融体系改革地不断推进,国家、金融机构、企业以及个人的金融资产或是负债在不断增加,货币市场、债券发行市场以及二级市场的利率市场化进程也已在推进当中,使得利率背后的风险在不断增加,国家对利率调整越来越频繁,企业以及个人对利率变动更加敏感。对利率期限结构进行动态估计,揭示出我国的利率期限结构的波动特征以及模式,对发展与完善中国资本市场以及金融体制有重要的意义,其能够全面描述我国
近年来,随着信息技术和金融工具的不断发展,采用信息量更为丰富、信息损失更少的金融高频数据日益受到关注,通过其研究市场间的结构关系日渐成为对于金融市场结构关系的重点。相比于高频金融数据,低频金融数据由于其采集频率的限制,造成了一定的信息损失,在此基础上对于市场微观结构的研究结论通常具有局限性。高频金融数据通过更高的采集频率,能够捕获更多的金融市场微观结构信息。在金融市场研究中,是否能准确描述收益率的
金融资源是技术创新的决定性因素之一,金融与科技的紧密结合对促进国家产业转型、经济增长具有重要意义。关于金融发展与技术创新的既有研究中,对金融发展的关注点历经“金融规模与数量——金融结构——金融功能与效率”嬗变之路,而金融发展的质量与效率尚未被系统地纳入技术创新影响的研究范式。文章正是基于当前理论研究与现实背景展开,探讨金融“质”与“量”的发展对技术创新的影响机制。 文章在对金融发展及技术创新等变
在金融数量与金融时间序列分析中,经常会遇到大量的非负值金融时间序列。处理非负值变量的传统常用手段包括忽略非负性和对非负值过程取对数两种方法,但通常会导致扰动项的分布设定苛刻和有限样本估计受较大影响的不良后果。为了克服这些困难,Engle(2002)在《NewFrontiersforARCHModels》一文中对几十年以来ARCH类模型、ACD模型的发展等情况做了详细阐述,并提出了一种适合于非负值金
近年来,我国的债券市场得到了长足的发展,债券的品种、发行规模以及与数量都在以极高的速度增长,特别是公司债券,自2007年首次发行以来,迅猛增长,2014年及以后尤为明显,给我国的金融市场增添了新的活力因素;在公司债迅速发展的同时,风险也在不断加剧,2014年3月,“11超日债”实质违约,打破了我国债券市场刚性兑付的神话,违约事件开始频繁发生,截止2017年12月末,我国已经有111支信用债券发生违
股票市场作为经济的“晴雨表”,其容易受到多个方面的影响。个股的价格波动除了受宏观市场和自身经营状况影响以外,也会受到其他股票的影响,表现为股票市场之间相互牵制又相互促进。可以将股票市场抽象为每个股票节点和基于股票之间相关关系为连边的网络结构图来对整个股票市场内部影响进行分析。 复杂网络作为一种对现实世界描述的新思路,用来刻画不同的个体之间错综复杂的关系,从而在庞大而杂乱的关系中找到其演变过程和规
在如今这个高速经济发展的时代背景下,确定一个地区或国家经济发展的核心要素,不仅仅是物质财富的总量,也包括其人力资本水平。而一个国家人力资本水平的大小会直接影响到整个国家的竞争力。随着学者们对人力资本投资的理论实证研究发现,在我们提高地区人力资本投资水平时,不只是单一的对人力资本投资总量的考虑,更应该注重在人力资本投入时产生效率的大小。那么人力资本投入在各省的效率如何?省域间投资效率是否存在差异性而
中国经济高速发展是以耗费大量自然资源为代价的,同时也带来了一系列的社会和环境问题,随着人口红利的消失,老龄化程度的加剧,资源约束趋于紧张,环境污染问题更加突显,区域经济发展不均衡不充分,经济发展的整体质量令人担忧。另外一方面,地区经济增长的差异问题也受到广泛关注。我国出于对整体经济发展的考虑,施行了东部沿海地区优先发展战略,这一战略措施对推动经济高速增长发挥了重要的作用,也造就了东部地区经济上的腾
传统金融学假设投资者是完全理性的,能够综合分析各类信息而做出最有利的决策,但事实上由于投资者风险偏好不同、心理状态差异和个体之间相互影响,从而影响证券价格会偏离自身真实价值,股票市场出现羊群效应、过度反应、动量效应等非理性行为。2015年股灾造成千股跌停,证券市场市值短短几天就蒸发上亿市值,有学者认为是因为融资融券的杠杆性和对冲风险发展不平衡,加大投资者非理性投资进而引发一场股灾;也有学者认为是因